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مدخل إلى الدنقيب 
2 بيانات العلوم الاجتماعية 


مقدمة المترجم 


لا شك في أن أي مشروع بحث علمي يعتمد التحليل والتمحيصء للإجابة عن 
أسئلة شائكة» يتوسل بطرق تحليلية تتوخى قدراً كبيراً من الدقة» بغية منح نتائجه 
ا و جوا و تنه بز لفل eae‏ إل اباط اهاط الد وات 
الصلة الوثيقة بأهداف المشروع البحثي داخل بيانات ضخمة» يضيع في تفاصيلها 
الباحث» هو المفتاح الرئيس نحو تحقيق هذا المبتغى. ضمن هذا التصور العام» يقدم 
بول أتيويل ودايفد موناغان مدخلا مفيداً في التنقيب في البيانات» الذي يشير إلى 
إحدى pal‏ الطرق الحديثة في التعامل مع معالجة البيانات» ورصد الأنماط الهامة 
المتضلة الك 


إن التنقيب في البيانات» أو ما يطلق عليه أحياناً اسم استكشاف البيانات أو 
المعرفة» عملية من عمليات 5 تحليا البيانات» ود تلخيصها ضمن (oe ls gles‏ قل 
تستخدم Wa‏ في زيادة الدخل. أو تخفيض التكاليف أو ae topes‏ بر مجیات 
التنقيب فى البيانات هى إحدى الوسائل التحليلية العديدة المسخرة فى عملية التنقيب 
فى البيانات؛ فهى تمكن المستخدمين من تحليل البيانات انطلاقاً من أبعاد ورؤى 
مختلفة» وتصنيفهاء وتلخيص العلاقات المرصودة. ومن الناحية التقنية» يعد التنقيب 
E‏ البيانات» عملية تحدد الارتباطات (Correlations)‏ أو LLG!‏ الموجودة بين 
عشرات الحقول 5 قواعد البيانات العلائقية (Relational Databases)‏ الضخمة. 
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صحيح إن التنقيب في البيانات هو اصطلاح de‏ ولكن التقنية مألوفة» ذلك 
نان ال كاك ميق أن اغات حواسيب قوية في غربلة أحجام كبيرة من بيانات 
الماسح الضوئي للأسواق الضخمة. وتحليل تقارير بحثية عنها. ومع ذلك يبقى هذا 
التحليل محدوداً بالمقارنة مع ما وصلت إليه الابتكارات المستمرة في مجال المعالجة 
E‏ :القرض» واترمجات SLAY‏ الى .ريت س Wa‏ تحليل 
البيانات على نحو لافت للنظر. وقد تكون البيانات وقائع» أو أعداداء أو نصوصاً 
يمكن أن يخضع إلى المعالجة الحاسوبية» كما أن التقدم الذي تم تحقيقه في مجال 
برمجيات الحاسوب» مكنت المنظمات والشركات» وغيرهاء من دمج قواعد بياناتها 
في مستودع البيانات «(Data Warehouse)‏ إذ تدار داخله OLLI!‏ بشكل منظم 
وتسترجع متى شاء المحلل ذلك. ومن بين هذه البرمجيات التحليلية» نذكر البرمجيات 
الإحصائية» وبرمجيات التعلم «(Machine Learning) JY‏ وبرمجيات الشبكات 
العصبية» بحيث تسعى كلها إلى البحث في «الأصناف» (Classes)‏ و«التجميعات» 
(Clusters)‏ و«الترابطات» (Associations)‏ «والأنماط التسلسلية» (Sequential‏ 


.Patterns) 


ولدى التنقيب في البيانات» مستويات مختلفة من التحليل كالشبكات العصبية 
الاصطناعية» والخوارزميات الجينية» وتفرعات القرار» وطريقة أقرب الجيران. 
واستقراء القاعدة» وتصور البيانات» وغيرها من المستويات والطرق التحليلية. 

لقد ظل المؤلفان - من أولى كلمات الكتاب إلى نهايتها - يدافعان بحماس عن 
التنقيب في البيانات باعتبارها طريقة أو مقاربة بديلة عن النمذجة الإحصائية التقليدية. 
التي تعجز عن معالجة البيانات الضخمة» والمألوفة لدى معظم علماء الاجتماع. 

وقبل أن أختم هذه المقدمة المقتضبةء BY‏ من الإشارة إلى المشاكل الجمّة التي 
رافقتني طيلة القيام بترجمة هذا الكتات العلمي الهام. لما عرض علي Data AS‏ 
Mining For The Social Sciences: An Introduction‏ شد انتباهي عنوانه» 
وشغلت تفكيري عبارة Data Mining‏ بخاصة. حاولت أن ER‏ دون اللجوء 
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إلى محتوى الكتاب برمته» فعجزت؛ وبعد الاطّلاع على الكتاب ومراميه» حاولت مع 
ذلك الاستئناس ببعض الجهود الترجمية التي تعرضت لهذه الكلمة الحبلى بالمعاني 
التقنية» فوجدت من ترجمها بعبارة «استنباط البيانات»» ومن تر جمها بعبارة «التنقيب 
عن البيانات». لم تقنعن أي من الترجمتين» ذلك بأن الأولى تهمل معنى التنقيب الذي 
استعاره الكاتبان لإيصال فكرتهماء والثانية تذكر كلمة التنقيب المطلوبة فى إبراز ما 
يرومه المؤلفان» غير أن استعمالها اللغوي الذي يتبع Lee‏ بحرف «عن)» يوحي 
للقارئ بأن البيانات قيد الدرس غير موجودة hel‏ ومن ثم» وجوب جمعها. أمام 
هذا القصور في فهم العبارة. وترجمتها ترجمة تلتزم GE:‏ المعنى الذي يتوخاه 
الكاتبان» pal‏ حت عبارة التنقيب فى البيانات» التى تقتضى وجود بيانات في المقام 


إن ترجمة النص العلمي الذي قد تترتب عنه اختراعات وبناء تصورات» خطيرة 
daa‏ خطورة ترجمة النص الديني أحياناء ولهذا كانت معظم قراراتي المتعلقة بانتقاء 
الأنسب من المقابلات العربية» صعبة للغاية؛ فالمصطلحات العلمية (الرياضية منهاء 
ولخاو ا خا يبك من )عدو es‏ ا ا ال ر تلااح 
المترجم ذكاءً استثنائياً لنحت مقابلاتها في اللغة العربية؛ لا خف القارئ أن رحلتي 
كلها مع هذا الكتاب المتفرد في الهدف والشكل» كانت رحلة شك في JS‏ كلمة 
مدرجة بشكل مستقل أو مضافة» سواء كانت سهلة جدأ أو متباينة الصعوبة» ولهذا 
تراني أحياناً أقترح المقابل وأتبعه بكتابته بالحروف الإنجليزية (Transliteration)‏ 


وأخيراً أشكر المنظمة العربية للترجمة في شخص مديرها العام أ. د. هيثم 
الناهىء الذي منحنى JS‏ هذه الثقة للتصدي لكتاب علمى من هذا العيار الثقيل. كما 
Rl‏ زوين ol‏ شجعتئى على ترجمة LSI‏ دول 5 693 ووفرت لى الأجواء 
المناسبة لإتمامه. 


عبد النور خراقي 
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إهداء 


إلى عائلتي» كاتي» وتيفان» ودايفد الذين دفعني 
دعمهم ومودتهم إلى JS‏ ما قمت به. 
بول أتيويل 
إلى زوجتي الرائعة» ميليندا على حبهاء 
ودعمهاء وتشجيعها. Sly‏ والدي على حبهماء وتوجيههما. 
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شكر وتقدير 


إن التنقيب في البيانات - ioli‏ باعتباره تخصصا Goat‏ على بيانات العلوم 
الاجتماعية - هو مجال بحث» يعرف تغيراً متسارعاً. واستفاد فهمنا لهذه الطرق 
الجديدة بشكل هائل من تعليم الآخرين ونصحهم» خصوصاً الأستاذ روبرت ستاين. 
وروبرت هاراليك» وأندرو روزنبورغ. هذاء وقد ساهم العديد من الطلاب» ممن 
يستعملون هذه التقنيات في مشاريع الدكتوراه» بحكمتهم. 

WI‏ وقبل JF‏ شيء. lel‏ دارين كوونغ العديد من الأمثلة التي وردت في هذا 
الكتاب» متصارعاً أحياناً أثناء مباشرة العمل مع عناد البرمجيات» كما نظم دارين أيضا 
سلسلة ندوات dele‏ لا تقدر بثمن عن التنقيب في البيانات في مركز كوني للدراسات 
العليا في نيويورك التي تطلعنا على الطرق الكمية الجديدة. وقد شاطر JS‏ من ديرك 
ويتيفين وأندرو والاس استبصاراتهما ومهاراتهما حول تقنيات حاسوبية مختلفة» 
يتقنونها. وساهمت وينغوان وتشنغ بعملها الجادء لإتمام مهمة لا تبغي من ورائها 
شكراً Lok‏ وثمة طلبة متخرجون آخرون كثرء لا يمكن ذكرهم جميعاًء المسجلين 
في دورات التكوين بسلك الدكتوراه في مجال التنقيب في البيانات» والذين منحونا 
فرصة اختبار أفكارنا وشروحاتنا لهذه الطرق. 
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وأخيراً وليس آخرأء إننا مدينون بالشكر الجزيل لمؤسسة العلوم الوطنية» التي 
دعمت منحتها التي تحمل رقم DRL1243785‏ بحثنا وأنشطة أخرى ذات الصلة. 


بما في ذلك التنقيب في البيانات في العلوم الاجتماعية والسلوكية» وفي التعليم. 
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JD) sa) 


(النصل NO)‏ 
ما القصود بالتنقيب في البيانات؟ 


يطلق اسم التنقيب في البيانات (DM) (Data Mining)‏ على مجموعة من تقنيات 
الحاسوب المكثف» بغية استكشاف البنية» وتحليل الأنماط في البيانات. ومن خلال 
استخدام تلك الأنماط» يمكن للتنقيب في البيانات أن ينتج نماذج تنبؤية» أو يصنف 
الأشياء» أو يحدد مجموعات أو تجميعات (Clusters)‏ مختلفة من الحالات داخل 
البيانات. وقد سبق استخدام التنقيب في البيانات» وبطرق أخرى مثل التعلم BW‏ 
«(Machine Learning)‏ والتحليلات التنبؤية «(Predictive Analytics)‏ في الاتجار 
بشكل واسع» وأخذ ينتشر في العلوم الاجتماعية» ومجالات بحث أخرى. 

وتضم القائمة الجزئية لمناهج التنقيب في البيانات الحالية ما يلي: 

(Association Rules) قواعد الارتباط‎ © 


© تقسيم تكراري (Recursive Partitioning)‏ أو أشجار القرار (Decision‏ 
Ly Trees)‏ في ذلك التصنيف وشجرة الانحدار (Classification and‏ 
«(CART) Regression Trees)‏ ومربع كاي للكشف عن التفاعل التلقائي 
“(CHAID) (Chi-Squared Automatic Interaction Detection)‏ 
وأشجار معززة «(Boosted Trees)‏ وغابات» وغابات نظام تمهيدي لتشغيل 
الحاسوب .(Bootstrap Forests)‏ 
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© نماذج الشبكة العصبية المتعددة الطبقات (Multi - Layer Neural Network‏ 
Models)‏ ومناهج «التعلم العميق) .(Deep Learning)‏ 


cli »©‏ «بايز) (Bayes Classifiers)‏ الساذجة» والشبكات «البايزية) 
(Bayesian Networks)‏ 


° المناهج التجميعية» (Clustering Methods)‏ ہما فى ذلك أقرب المجاورات 
التراتبية خوارزمية «ك-مينز) «(k-Means)‏ والتجميع المتعدد الخطي وغير 
الخطى. 


.(Support Vector Machines) JY! شعاع الدعم‎ @ 


© «نمذجة (Soft Modeling) (iJ‏ أو نمذجة متغيرة المربعات الصغرى الكامنة 
.(Partial Least Squares Latent)‏ 


يعد التنقيب في البيانات علم حديث العهد. ولكنه ينمو نموا فائق السرعة. )3 
تظهر - في اللحظة الراهنة من حديثنا - طرق جديدة» وتعدل طرق قديمة» وتتراكم 
استراتيجيات ومهارات تمكن من استخدامها. لقد أصبحت قوة التنقيب في البيانات 
وأهميتها تحظى باعتراف واسع النطاق» إذ في غضون السنتين الماضيتين Li‏ 
ضخت المؤسسة الوطنية للعلوم» ملايين الدولارات للنهوض بمبادرات بحث 
جديدة في هذا المجال. 


ويمكن تطبيق طرق التنقيب فى البيانات على ميادين مختلفة جدأء مثل البيانات 
lerdal slay cle aa eS alan‏ رو ا 
صور رقمية. كما يستخدم التنقيب في البيانات في تحليل النصوص fro)‏ تصنيف 
مضمون المقالات البحثية أو وثائق أخرى)» ومن ثم ظهور عبارة التنقيب في النصوص 
(Text Mining)‏ علاوة على AUS‏ يمكن تطبيق تحليلات التنقيب في البيانات على 
التسجيلات الصوتية (Digitized Sound)‏ للتعرف - Ses‏ - على كلمات 35 os‏ 
محادثات هاتفية. ولكننا سنركز في هذا الكتاب على المجال الأكثر شيوعاً: استخدام 
طرق التنقيب في البيانات لتحليل البيانات الكمية (Quantitative Data)‏ أو الرقمية. 
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إن عمال المناجم ينقبون عن عروق المعدن الخام» ويستخرجون هذه الأجزاء 
النفيسة من الصخور المحيطة. وقياسا على ذلك» يسعى التنقيب في البيانات إلى 
التنقيب عن أنماط أو بنية فى البيانات. ر عدوا غ tee‏ 
داخل بيانات؟ تصور شاشة حاسوب ماء التي تعرض آلاف LK‏ أي نقاط 
الضوء أو الظلام (Pixels)‏ التي تعد بيانات خامة أو أولية. ولكن لو فحصت تلك 
البيكسلات عبر العين» وتعرفت - فى داخلها - أشكال الحروف والكلمات» فإنك 
بصدد إيجاد بنيات في الببانات: - E‏ استعارة أخرى. فإنك بصدد تحويل 
البيانات إلى معلومة (Information)‏ . 


إن LAL pie‏ الحاسوب. ceed GUL GM dtl‏ جدول dine‏ 
(Spreadsheet)‏ أو مصفوفة (Matrix)‏ بحيث تمثل is‏ خانة متغير | (Variable)‏ 
pear‏ وكل سطر (Row)‏ يضم بيانات بالنسبة إلى شخص أو حالة مختلفين. كما 
تضم كلل خلية داخل الجدول الممتد» قيمة محددة بالنسبة إلى شخص واحد 

كيف يتسنى إدراك SLY‏ أو الانتظام أو البنية في هذا النوع من البيانات 
الأولية الرقمية؟ يقدم elode‏ الإحصاء طرقا متنوعة للتعبير عن العلاقات القائمة بين 
الخانات والأسطر فى جدول cls‏ والمصفوفة الترابطية (Correlation Matrix)‏ ھی 
إحدى هذه الطرق الأكثر eg‏ وعوضاً عن ترديد (Repeating)‏ البيانات الأولية 
«(Raw Data)‏ المؤلفة من آلاف الملاحظات» وعشرات المتغيرات يمكن أن تمثل 
المصفوفة الترابطية مجرد العلاقات بين كل متغيرء وكل متغير آخر على حدة. إنها 
ملخصء. أي إنها تبسيط للبيانات الأولية. 

القليل منا مَنْ يستطيع قراءة المصفوفة الترابطية ببساطة» أو يدرك Une‏ هادفا 
فيهاء باستثناء قلة قليلة. من أجل هذاء نتوسل - إجمالا - بخطوة ثانية للبحث عن 
ole‏ فى بيانات رقمية؛ فتبتكر نموذجاً يلخص العلاقات فى المصفوفة الترابطية 
مثل نمو zò‏ انحدار المربعات الصغرى «(Ordinary Least Satan Regression)‏ 
الذي يترجم هذه المصفوفة الترابطية إلى معادلة انحدار (Regression Equation)‏ 
متناهية في الصغرء يمكننا فهمها وتفسيرها بسهولة أكثر. 


21 


أولية» بل هو Lal‏ أداة للتنبؤ (Prediction)‏ وهى الخاصية التى تجعل من التنقيب 
فى البيانات مفيدة» dole‏ إن البنوك نياكم بيانات ضخمة (Huge Data)‏ حول 
الزبائن» بما في ذلك تسجيلات ته أولئك المتخلفين عن الإيفاء بتسديد القروض› 
نحو دقيق» بمن سيتخلف عن أداء قرض ماء فسيكون باستطاعتهم رفض الطلبات 
الجديدة الأكثر مجازفة بشأن الحصول على القروضء ومن ثم تجنب الخسائر. وإذا 
ما تمکنت شركة أفازون كوم «(Amazon.com)‏ من تقييم الأذواق بشأن الكتب الت 
تستهوي الميول الشخصية» استنادأ إلى المقتنيات السابقة» مع رصد أوجه التطابق بين 
عملاء آخرين» ومن ثم العمل على الإغراء بعرض كتب مختارة بعناية» فتحقق هذه 
الشركة مزيداً من الأرباح. وإذا ما تمكن طبيب ماء من الحصول على تفريسة بالرنين 
المغناطيسي النووي (NMR Scan)‏ لنسيج الخلاياء والتنبؤ - انطلاقا من تلك 
البيانات - بما إن كان ورم ماء خبيثاً أم حميداً» فستكون رهن إشارة الطبيب» أداة قوية. 


إن عالمنا يعج بالبيانات الرقمية» ومن خلال عملية التنقيب فيهاء بغية إيجاد 
أنماط ما - خاصة أنماط قادرة على التنبؤ بنتائج مهمة بشكل دقيق - يمكنها تقدم 
خدمة قيمة للغاية. فالتنبؤ الدقيق» يمكن أن ينذر بقرار» ويفضى إلى العمل على 
WIS Bil eS‏ ذلك السيع og gl‏ سيا على pod BG eV‏ 0 — ]3 د 
برمجة عملية جراحية؛ وإذا كانت نسبة الخطر المتوقعة عالية بشأن تخلف الدائن عن 
أداء القروض» فلا تقرضه. 

ولكن لماذا الحاجة إلى التنقيب فى البيانات من أجل هذا؟ أليست هذه الطرق 
ali lary‏ غير ادر على اليا مباداء gle Yond Ub gl‏ اوي 


لا شك في أن الطرق الإحصائية التقليدية تمنح نماذج تنبؤية» غير أنها لا تسلم 
من نقص كبير. من أجل ذلك» ظهرت طرق التنقيب في البيانات باعتبارها بديلا عن 
الطرق التقليدية» وأحياناً Sun‏ أفضلء أقل ارتهاناً بتلك المشاكل. وسنقوم LRN‏ 
بتعداد مزايا متعددة للتنقيب فى البيانات» غير أننا نقتصر حالياً على الميزة الأكثر 
byes‏ إن القت ف SUL‏ ماس bly le gems pled isle‏ 
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(Datasets)‏ كبيرة جداً ذات متغيرات و(أو) حالات عديدة» تعرف بالبيانات الضخمة 
(Big Data)‏ 


وأحياناً تنهار طرق الإحصاء التقليدية لدى تطبيقها على مجموعات كبيرة جداً 
من البيانات» ومرد ذلك إما إلى عجزها عن معالجة مظاهر حاسوبية» وإما إلى 
مواجهتها عوائق أكثر جوهرية في التقدير عندما تحتوي - Wia‏ - مجموعة بيانات 
على متغيرات تفوق الملاحظات؛ وهو مزج تعجز نماذج الانحدار التقليدية عن 
معالجته» ولكن تتوفق فيه طرق عديدة من التنقيب في البيانات. 


لا يقتصر التنقيب في البيانات على التغلب على بعض النقص الذي تعاني منها 
طرق الإحصاء التقليدية» بل تساعد Lal‏ على تجاوز بعض النقص البشري. وقد 
يغفل باحث ما سمات مهمة من البيانات» وهو يواجه مجموعة بيانات مكونة من 
مئات المتغيرات وآلاف مؤلفة من الحالات» بالنظر إلى قلة الوقت والانتباه. على 
سبيل المثال» من السهل نسبياًء فحص ست متغيرات للبث في تحويل أي منهاء 
وجعلها أكثر تطابقاً مع منحنى جرسي «(Bell Curve)‏ أو توزيع طبيعي (Normal‏ 
Distribution)‏ ومع ذلك» سيصاب محلل بشري ما بالارتباك بشكل سريع لدی 
محاولته تطبيق الأمر نفسه على مئات المتغيرات. وعلى النحو ذاته» قد يرغب باحث 
ما في فحص تفاعلات إحصائية بين متنبئين في مجموعة بيانات معينة» ولكن ما الذي 
سيخدث لما يكون ذاك الشخض Le ple‏ بالأخذ بعين الاعتبار تفاغلات بين غشرات 
المفنيكيق ؟ dered OLS Il ote Of‏ تتم شكل كير lie‏ إلى ذرجة أن أئ Slee‏ 


بشري يجد نفسه في وضع لا يحسد عليه. 

وتعد تقنيات التنقيب في البيانات - في هذه الحالة - مفيدة» لأنها تساعد جزثياً 
على «أتمتة) (Automate)‏ تحليل البيانات» من خلال تحديد المتنبئات الأكثر أهمية 
ب غيل ة pS‏ من cl patel‏ الستقلة: spe gh‏ خلال be got‏ المتخيرات اليا إلى توزيغات 
أكثر فائدة» أو عبر اكتشاف التفاعلات المعقدة بين المتغيرات» أو عبر استجلاء الأشكال 
غير المتجانسة السائدة في مجموعة بيانات ما. ويتخذ الباحث البشري قرارات حاسمة. 
ولكن طرق التنقيب في البيانات تؤثر في قدرة الحواسيب على مقارنة بدائل عديدة. 
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(Larose 2005; Mckinsey وتحديد أنماط قد يهملها المحللون من البشر بسهولة‎ 
.Global Institute 2011; Nibset, Elder, and Miner 2009) 


ومحصلة ذلك أن التنقيب في البيانات كثيف جداً حسابياًء ذلك بأنه يستخدم 
قدرة الحاسوب للتنقيب عن البيانات بغية استخلاص أنماط معينة» والبحث عن 
التفاعلات «الخفية» بين المتغيرات» واختبار طرق بديلة أو مزج نماذج لتعظيم دقة 
تنبؤه. 

أهداف هذا الكتاب 

ثمة كتب عديدة عن التنقيب في البيانات؛ فبماذا يمتاز هذا الكتاب عن غيره. 
إذن؟ قد يفكر المرء فى أدبيات حول التنقيب فى البيانات» باعتبارها كعكة مكونة من 
عدة طبقات» حيث تتناول طبقتها السفلى ات والنظريات التي تشكل الدعامة 
الأساسية للتنقيب في البيانات. هذه أمور جوهرية» ولكنها مستعصية على الفهم. ولم 
يكن هدف هذا الكتاب الرئيس» تناول الأشياء تقنيا على مستوى Jle‏ جداء ولكن 
يمكن للمهتمين من القراء الاطلاع على جوانب من US‏ من خلال الرجوع إلى 
النسخة الإلكترونية من النص الكلاسيكي من إنتاج هاستي (Hastie)‏ وتيبشيراني 
«(Tibshirani)‏ وفريدمان (The Elements of Statistical :(Friedman)‏ 


Learning: Data Mining, Inference, and Prediction) (2009)‏ وتو جد نسخة 
مجانية على الرابط التالي: 

(www.stanford.edu/~hastie/local.ftp/Springer/OLD//ESLII_ print4. 
pdf) 

وإذا ما تحر LS‏ تصاعدياء فسنجد الطبقة الموالية من أدبيات التنقيب فى البيانات» 
المتضمنة الخوارزميات (Algorithms)‏ الحاسوبية التى تطبق تلك Sal‏ 
Ue EE‏ ا فا ا BS ie,‏ ت 
الوقت المطلوب hY‏ عمليات رياضية ومصفوفة (Matrix)‏ واختيار الاستراتيجيات 
الحاسوبية الناجعة» القادرة على تحليل حالة واحدة على حدة» أو القيام بعدد محدود 
جدا من التنقلات عبر مجموعة بيانات ضخمة. وتكون استراتيجيات الحاسوب 
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cde‏ حاسمة بخاصة - وبشكل سريع - عند تحليل بيانات ضخمة» تتألف من 
مئات الآلاف من الملاحظات. ويمكن أن يشتغل برنامج حاسوب غير ناجع لأيام 
المهتمون. يمكنهم الرجوع إلى كتب تان (Tan)‏ وشتاينباخ (Steinbach)‏ كومار 
(Kumar)‏ )2005( وويتن (Witten)‏ وإيبى  (Eibe)‏ وهول (Hall)‏ )2011( 


وفي الطبقة العليا من أدبيات التنقيب في البيانات» يجد المرء كتباً حول استخدام 
التنقيب في البيانات؛ إذ يحمل كثير منها نصائح للمديرين والموظفين» تمكنهم من 
إحداث ثورة شاملة في شركاتهم من خلال تبني التنقيب في البيانات أو «تحليل 
الأعمال» باعتبارها استراتيجية عمل. ومع US‏ ليس ذلك هدفناء بل إن هذا الكتاب 
يقدم مدخلاً قصيراً غير تقني لأولئك الذين يهتمون باستخدامها في تحليل بيانات 
كمية» ولا يعرفون - مع ذلك - الكثير عن هذه الطرق. إن هدفنا الرئيس هو تفسير 
عمل التنقيب في البيانات» وكيفية اختلافها عن أنواع مألوفة أو راسخة للغاية» من 
التحليل الإحصائي والنمذجة (Modeling)‏ والوقوف عند بعض مواطن القوة 
والضعف التي يتميز بها التنقيب في البيانات. ولبيان تلك الأفكار» يبدأ الكتاب 
بمناقشة التنقيب في البيانات بشكل عام» لا سيما ما يتعلق بمنظوره المتميز حول 
تحليل البيانات؛ وتنتقل المناقشة بعد ذلك» إلى تقديم الطرق الرئيسة أو الأدوات 
داخل التنقيب في البيانات. 


ويتحاشى الكتاب - فى مجمله - الرياضيات» ولكن يفترض معرفة أساسية 
بالإحصائيات التقليدية» ويفرض - على الأقل - الإلمام بقدر ضئيل بالانحدار 
المتعدد() «(Multiple Regression)‏ والانحدار اللوجيستي (Logistic‏ 
.Regression)‏ ويقدم القسم الثانى من هذا الكتاب» أمثلة عن تحليلات البيانات 
بالنسبة إلى كل تطبيق على حدة أو أداة من أدوات التنقيب في البيانات» كما يطلع 
الكتاب القارئ على تأويل pes‏ جات البرمجيات «(Software Output)‏ ويناقش کل 
مثال من الأمئلة التي علمتنا. ويضم هذا الكتاب «حيلاً» عديدة» يستخدمها محللو 
البيانات في تحليلاتهم» ويبرز بعض المآزق قصد تجنبهاء أو يقترح طرقا لاحتوائها. 
(1) يمكن أيضاً ترجمة هذه العبارة ب «التراجع المضاعف» (المترجم). 
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وبعد الانتهاء من قراءة هذا الكتاب» تكون مطالباً - على نحو عام - بفهم معنى 
افيه في البيانات» وإدراك غايات استخدامها من لدن محلل البيانات» وتكون قادرا 
على اختيار أدوات التنقيب في البيانات المناسبة من أجل القيام بمهام خاصة. وقادرا 
Lal‏ على تفسير مخرجاتها. ويبقى بعد ذلك استخدام أدوات التنقيب في البيانات - 
بالأساس - مسألة ممارسة» ومسايرة لحقل يشهد تقدما بوتيرة متسارعة وعلى نحو 
غير عادي. 

برمجيات ومعدات من أجل التنقيب في البيانات 

تستخدم شركات كبيرة برامج الحاسوب المكتوبة للعملاء في تطبيقات 
(Applications)‏ التنقيب في البيانات» ويشغلونها مستخدمين الحاسبات الكبرى 
(Mainframes)‏ فائقة السرعة» أو تجميعات (Computer Clusters) ap pul‏ 
قوية. وتعد - على ما يبدو - تلك الأنواع من الحواسيب» أفضل الحواسيب البيئية 
المستعملة في تحليل البيانات الضخمة (Big Data)‏ ولكن ليست في متناول السواد 
الأعظم منا. ولكن» لحسن الحظ أن هناك منتوجات متعددة» تمزج أدوات متعددة 
لاتقب في البيانات» في حزمة واحدة أو مجموعة برمجيات «(Software Suite)‏ 
يتم تشغيلها ضمن نظام ويندوز (Windows)‏ على حاسوب شخصي. 


إن جي . أم. ب GIMP)‏ التي تنطق «غامب برو»» وهي برمجيات إحصائية من 
تطوير الشركة التي تبيع برمجيات نظام التحليل الإحصائي CSAS)‏ يمكن للمرء 
alysis‏ تة أخرى. إن برمجيات wale?)‏ برو) سهلة الاستخدام esi‏ وا 
استعمال منهجية الإشارة والنقر .(Point—and-Click Approach)‏ ومع ذلك ھن 
تفتقر إلى بعض أدوات التنقيب فى البيانات التحليلية الأكثر حداثة. 


وتعد الحزمة الإحصائية للعلوم الاجتماعية (Statistical Package for the‏ 
(SSPS) Social Sciences)‏ التى تملكها شركة آي . بي. إم «(1BM)‏ أقدم المنتوجات 
البرمجية» وأكثرها رسوخاً فى تحليل البيانات» متوسلة بطرق إحصائية تقليدية مثل 


)2( يجوز أيضا ترجمة العبارة ب «عناقيد حاسوبية» (المترجم). 
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الانحدار (Regression)‏ والتہویب المزدوج (1055-1301113101))» و«اختبار-ت) 
(T-Test)‏ (أي اختبار المقارنة بين متو سطين(« وتحليل العامل «(Factor Analysis)‏ 
ونحوها. وتضم النسخة «المهنية» للحزمة الإحصائية للعلوم الاجتماعية في as‏ 
الأكثر حداثة (أي 20 وما فوق)» طرقا عديدة لعملية التنقيب فى البيانات» بما فى ذلك 
نماذج الشبكات العصبية f «(Neural Network Models)‏ الطرق aS!‏ الخطية 
«(Automated Network Models)‏ و التجميع (Clustering)‏ . وهذه الطرق برمتها 
سهلة الاستغنال» (Programs) cel y Le‏ تعتمد (الإشارة Calls‏ ومدخلاتها 
(Inputs)‏ ومخرجاتها «(Outputs)‏ مصممة تصميما محكما. ولعل chia‏ سيكون 
المكان الأفضل لمبتدئ ماء لتذوق بعض طرق التنقيب في البيانات. 


وتضم حزمة التنقيب في البيانات الأكثر تقدمأء التي تدعى مُندمج الآي. بي. إم. 
والحزمة الإحصائية للعلوم الاجتماعية (IBM SPSS Modeler)‏ اختياراً أكبر من 
طرق التنقيب في البيانات. ويعد هذا البرنامج أكثر تعقيدا للتعليم من الحزمة 
الإحصائية للعلوم الاجتماعية المطردة؛ لأنه يستلزم من المرء ترتيب أيقونات متعددة 
داخل عملية من العمليات. ووضع خيارات متنوعة» أو مَعّلمات (Parameters)‏ 
ومع ذلك. يوفر المنمذج» مجموعة كاملة من أدوات التنقيب في البيانات. 


وثمة منتوجات برمجية تجارية أخرى للحواسيب» تضم بعض أدوات التنقيب في 
البيانات داخل برمجياتها الإحصائية العامة» ومن ذلك تقديم ماثووركس ماتلاب 
(MathWorks MATLAB)‏ التنقيب فى البيانات داخل «نظامى عدة» (Toolboxes)‏ 
متخصصين : وهما اللإحصاء والشبكات ا وتضم حزمة (Statistica) Regis‏ 
التابعة ل «ستاتسوفت»» مجموعة من التنقيب فى البيانات. وتعد تقنية الإكس . إل. ماينر 
(XL Miner)‏ مضافاً تجارياً بالنسبة إلى التنقيب في البيانات التي تشتغل مع برنامج 
إكسيل (Excel)‏ جدولي (Spreadsheet)‏ لمایکر وسو فت (Microsoft)‏ 

penises Gh مات‎ WS Gaia ine TAN ets 
N «(RapidMiner) البيانات لفائدة الحواسیب؛ إذ تعد برمجيات الرابدماينر‎ 
من البرامج الواسعة للتنقيب في البيانات» تم تطويرها في ألمانيا. ومؤخرأء ضمت‎ 
مكتوبة في‎ (Weka DM) معها برامج أخرى من برامج الويكا للتنقيب في البيانات‎ 
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اللغة Language) O. b‏ 8). ونتيجة UU‏ يقدم الرابدمايئر لحد الآن» أكبر lode‏ 
من برنامج التنقيب في البيانات المتوفرة حاليا في منتوج برمجي مستقل. وهو أيضا 
متوفر بالمجان على الرابط Chttp://rapid-i.com)‏ من أجل الاستزادة. وتأخذ 
البرمجيات وقتاً كبيراً قبل أن يتمكن الفرد من إتقانها؛ فهي تستخدم مقاربة مخطط 
انسيابى (Flowchart)‏ تشمل سحب الأيقونات إلى مساحة عملء وربطها داخل 
برنامج أو تسلسل .(Sequence)‏ وهذه الفكرة مألوفة لدى واضعي برامج الحاسوب 
(Programmers)‏ ولکن قن تأخذ من الآخرين بعض الوقت لتعلمها. ومع ذلك 
فالمستخدم لا يكتب أوامر أو شفرة (Code)‏ إن ثمة (ytd‏ كبيراً من التوثيق عبر 
الإنترنت» إلى جانب المدخل إلى برمجيات الرابدماينر الذي كتبه نورث 
(North 2012)‏ وأفرد نسخة مجانية له على الرابط: (http://dl.dropbox.com/‏ 
.u3 1779972/DataMiningForTheMasses.pdf)‏ 


ويعد ويكاء أحد البرامج القديمة للتنقيب في البيانات» وهو متاح أيضا بالمجان 
على الرابط ad .C/www.cs.waikato.ac.nz/ml/weka)‏ تم تطويره في 
نيوزيلنداء وهو موثق توثيقاً جيداً بشكل استثنائي» بحيث يضم كتاباً موسوعياً 
«CWitten, Eibe, and Hall 2011)‏ وبرامج تعليمية عبر الإنترنت: (www.cs.cesu.‏ 


.edu /~markov /weka- tutorial. pdf) 


ols‏ راتل cChttp://rattle.togaware.com) (Rattle)‏ واجهة من واجهات 
المستخدم الرسومية (Graphical User Interface)‏ المجانية بالنسبة إلى مجموعة 
من أدوات التنقيب فى البيانات المتوافرة فى لغة «آر.»» (و«آر.» نفسه تحميل مجانى). 
كما أن «راتل» ss shy‏ ا le‏ 3 ذلك احتوائه على كتاب مدرسى (G.‏ 
«Williams 2011)‏ ويعد )5 (http://mephisto.unige.ch / (TraMiner) ( ule}‏ 
traminer)‏ برنامجاً مجانياً من البرامج المتخصصة. التي تم تطويرها في سويسرا 
لتحليل متواليات وبيانات sb‏ لاني (Longitudinal)‏ ولیس هذا بديلاً oN,‏ مكملا 
بشكل أعم لبرمجيات التنقيب في البيانات. 


(3) اقترن حرف «الراء» بكلمة «لغة» نسبة لحرف الراء الموجود فى بداية الاسمين الأولين: روس إيهاكا 
(Ross Ihaka)‏ ورويرت جانتلمان OY (Robert Gentleman)‏ الفضل يرجع إليهما فى اكتشاف هذه 


البرمجية (المترجم). 
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ولا أحد يعلم حزمة البرمجيات المتنافسة التي ستسود في الأعوام القادمة» ومن 
ثم» سيكون من الصعب علينا أن نوصي ببرمجية تستثمر فيها جهدك لتتعلمها. وإذا 
كانت تهمك سهولة الاستخدام أكثر من أي شيء آخرء فيمكنك - إذن - البدء 
بالحزمة الإحصائية للعلوم الاجتماعية المهنية (SPSS Professional)‏ أو «غامب» 
IMP)‏ ومن ناحية أخرىء إذا أردت الولوج إلى اللوحة الكاملة لتقنيات التنقيب في 
البيانات» ob‏ المَنمذِج (Modeler)‏ أو «رابدماينر»» قد يكون اختيارا جيدا. 


إن معدي برمجيات التنقيب فى البيانات لأجهزة الحاسوب» يميلون إلى التقليل 
من أهمية تهيئة (Configuration)‏ البرمجيات الضرورية لاستخدام منتوجاتهم 
بفاعلية. وقد دفعت برمجيات التنقيب في البيانات» أجهزت الحواسيب القائمة على 
«الويندوز» إلى حدودها القصوى؛ فعند استخدام أجهزة الحاسوب المكتبية العادية 
لتشغيل برمجيات التنقيب فى البيانات» يكتشف المرء أن بعض التحليلات تشتغل 
ببطء شدید» وبعضها يصاب «(بعطل)» أو «يتو قف فجأة»» حتى عندما تكون مجموعات 
البيانات غير كبيرة. ولتجنب تلك الإحباطات» من الأفضل استخدام جهاز حاسوب 
قوي ما أمكن» يحتوي - على الأقل - على 8 «جيغا بايت» (GB)‏ من الرامات 
(RAM)‏ أي الذاكرة العشوائية فى الهواتف والحواسيب» (ويفضل أن يكون أكثر من 
45( ومعالج معلومات متعدد النواة Ste) (Multicore Processor)‏ معالجات 
«إنتل» من الجيل السادس» )7 -C(Cnteli‏ وحتى ذلك الحين» قد تحتاج إلى استراحة 
لتناول قهوة. تاركاً في الوقت نفسه بعض البرامج تشتغل. 


وتحتاج الكمية الكبيرة من المعلومات إلى محركات أقراص صلبة (Hard‏ 
Drives)‏ ولكن أصبحت محركات تيرابايت -1 )62-5 خيارات غير مكلفة عند 
el ot‏ بحاسوت Lol ute‏ بالنسية إلى معظم مجموعات البيانات (Datasets)‏ فتكفيها 
محركات أقراص صلبة صغرى. وتشكل - على ما يبدو - قراءة البيانات عقبة عندما 
يكون التنقيب في البيانات على جهاز الحاسوبء ولعل سرعة معالجة الذاكرة ووحدة 
المعالجة المركزية (CPU)‏ هي العوامل المحددة. 
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تبر التنقيب في البيانات حقل معرفي متعدد التخصص» ساهم فيه JS‏ من 


م 
علماء الحاسوب» والرياضييرة» وعلماء الاجتماع avast‏ وتعكس مصطلحات 
التنقيب فى البيانات هذه الأصول المتنوعة. هناك بعض المصطلحات الأساسية 
والمفاهيم التي ينبغي على القارئ الاطّلاع عليها منذ البداية. 


إن ما يصطلح عليه الإحصائيون بالمتغيرات Ske - (Variables)‏ طول 
شخص cle‏ ووزنه» ولون عینیه» أو عنوان عميل cle‏ ورقم هاتفه» ورمزه 
البو يدي - هي عادة ما تلع سمات (Features)‏ أو ميزات (Attributes)‏ 
من لدن علماء التنقيب في البيانات. وعلماء الحاسوب. 


يميز علماء الإحصاء بين المتغيرات المستقلة (Independent Variables)‏ 
(التى هى متنبئات «((Predictors)‏ والمتغيرات التابعة (Dependent‏ 
Variables)‏ (وهي القياس الذي تم تنبؤه)» وعندما يتحدث علماء التنقيب 
فى البيانات عن eI‏ سه سيشيرون إلى السات أو«الغيرات الى تنا 
بهدف ما. وفي سياقات معينة» يستعملون أيضاً مصطلح فئة (Class)‏ أو رقعة 
تعريف (Label)‏ (عوض هدف)» قاصدين بذلك المتغير التابع الاش 


يحتوي نموذج cle (Model)‏ سمات أو ميزات رقمية» ممزوجة بطريقة 
رياضية داخل تنبؤ من تنبؤات متغير الهدف (Target Variable)‏ وفى 
حالاات عديدة» يعد نموذج من نماذج التنقيب في البيانات» معادلة تربط قیم 
سمات مرصودة عديدة بقيمة Lite‏ بها بالنسبة إلى المتغير الهدف. وغالبا ما 
يتم بلوغ ذلك التنبؤ من خلال عملية ضرب القيمة المرصودة (Observed‏ 
Values)‏ لكل متغير أو سمة فى عدد ما (الوزن أو المعامل (Coefficient)‏ 
خاص بذلك المتغير» or‏ إضافة تلك المكونات Aes‏ وإن هذه القيم 
المناسبة لتلك الأوزان والمعاملات هي ما EL‏ فيها البرنامج (أو يستكشفه 
أو يتعلمه) لدى بناء نموذج ما. 


إن علماء التنقيب في البيانات» يتحدثون عن تركيب نموذج ما. وتشير هذه 
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العبارة أا إلى انتقاء تقنية نمذجة معينة؛ واخ نشيو إلى gle!‏ 
المتغيرات وشكلها ضمن نموذجء وتعديلاتها. وأحياناً أخرى. تشير العبارة 
إلى عملية ذات قيمة تقريبية مفرطة» حيث من خلالها يقترب نموذج ما - 
تدريجيا - من وصف البيانات وصفا دقيقا. 


تدعى بعض المقاييس (المدرجة في قسم (GY‏ علم الإحصاء التطابقي 
(Fit Statistics)‏ أو حساب الدوال. إنها تصف مدى تطابق البيانات مع 
نموذج التنقيب في البيانات» أي إلى أي حدّ تطابق القيمة المتوقعة لهدف ما 
الف إلى كر حال أو شتخضن: اله الحقة."المرضودة GUL‏ اليك 
بالنسبة إلى ذلك الشخص. إن هدف تحليل من تحليلات التنقيب في 
البيانات» إنتاج نموذج دقيق التنبؤء أو كما نقول» يطابق البيانات بشكل جيد. 
ويمكن مقارنة الإحصاء التطابقي للبت في النموذج أو الطريقة التي تقوم 
بأداء جيد لمعالجة مجموعة بيانات محددة. 


pee‏ مصطلح التعلم (Machine Learning) Pel‏ إلى تحليلاات 
الحاسوب التي تنتج نموذجاً يتنبأ بأنماط في بيانات» أو يصنفهاء أو يحددها. 
وإن العديد من طرق التنقيب فى البيانات هى طرق تكرارية (Iterative)‏ |5 
تمر في البداية» عبر سلسلة ا ات التي تقدم تقديراً أولياً أو جواباً. 
وبعدهاء تحصل بعض الطرق على تقديرات أفضل» من خلال إضافة مزيد 
من الآدلة (مزيد من الحالات أو البيانات) لتغيير التقديرات الأولى. وتعمل 
طرق أخرى بمبدأ التجربة «(Trial and Error) Wsi g‏ إذ وت i‏ 
صغيرة على التقديرات الأولى» وترى ما إن كان التنبؤ المحصل عليه أفضل 
TAE‏ وفي Ls‏ المقاربتين» يعيد برنامج ers)‏ في TEn CON‏ 
سلسلة من الخطوات مرات متعددة - أي تتكرر - حتى تصبح التقديرات أو 
و bi pial‏ وا هده eu sole LS‏ 
التي تشمل تقديرات أفضل على التوالي» تفضي إلى استعارة التعلم الآلي. 
يميز علماء التنقيب في البيانات بين التعليم JY‏ الخاضع للإشراف والتعلم 
الآلي غير الخاضع للإشراف» وذلك لكون نوع التعليم الأول يشير إلى طرق 
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تلك البيانات حيث وجود كل من المتغيرات المستقلة» والمتغيرات غير 
المستقلة على السواء (أي سمات وهدف ما أو رقعة تعريف (Label)‏ وفي 
مرحلة بناء النموذج» يدرك المحلل سلفاء القيمة الحقيقية للهدف أو للمتغير 
المستقل بالنسبة إلى كل حالة على حدة. ومن ثم» يضم النموذج استكشاف 
صيغة أو تعلمهاء تتنبأ بشكل دقيق القيمة المرصودة للهدف» مستخدمة القيم 
المرصودة للسمات» ويدعى هذا أيضا النموذج التعليمي (Training)‏ ومن 
ناحية» «تشرف» البيانات المستهدفة على عملية التعلم (Learning‏ 
Process)‏ وفي مراحل متعاقبة من البحثء قد تستخدم تلك الصيغة أو ذلك 
النموذج للتنبؤ بقيم الهدف بالنسبة إلى بيانات جديدة» حيث القيم الحقيقية 
غير معروفة (وتدعى أحيانا بيانات خارج العينة ((Out-of-Sample)‏ وفي 
المقابل» هناك طرق أخرى أو أدوات للتنقيب في البيانات حيث انعدام أي 
متغير هدف (أو رقعة تعريف أو فئة) يتنبأ به. وفي لغة علم الإحصاء ليس 
هناك «متغير مستقل»» ويدعى هذا النوع الثاني من التنقيب في البيانات الذي 
يفتقر إلى Gag)!‏ التعليم غير الخاضع للإشراف. ولا يزال برنامج الحاسوب 
أو نموذج الحاسوب في طور التعلم (إيجاد بنية)» ولكنه لا يستخدم متغير 
الهدف باعتباره مرشدا له. وما السعي إلى وجود تجميعات ذات حالات 
متشابهة داخل مجموعات بيانات إلا مثال واحد للتعليم غير الخاضع 
للاشراف. 

في مجال التنقيب في lal‏ يشير مصطلح اختيار السمات (Feature‏ 
Selection)‏ إلى تقليص one‏ المتغيرات أو السمات ليتم تضمينها في نموذج 
من خلال تحديد المهم منها وسحب الباقي» بحيث يمكن - مع ذلك - لما 
تبقى منها التنبؤ بالهدف. 

ولاستخلاص السمات (Feature Extraction)‏ الغاية نفسهاء المتمثلة فى 
بلوغ متغيرات أقلء غير أنه في استخلاص السمات. acd‏ المتغيرات الأصلية 
المنهارة رياضياء مجموعة محدودة جديدة من المتغيرات داخل متغيرات 
قليلة جديدة» من خلال مزج An‏ منها ضمن مقاييس (Scales)‏ 
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وأحياناً يدعى النمط أو البنية في البيانات» الإشارة. وبسبب خطأ مقياس 
(Measurement Error)‏ أو تقلبات عشوائية «(Random Fluctuations)‏ 
فان هذه الإشارة cre‏ مع الضجيح (أو تتلوث به). ويأتى الضجيح من 
انعدام الدقة في القياس» أو من عوامل سياقية فريدة» تؤثر في حالات معينة 
أو أشخاص معيئين فی مجموعة الميانات (Dataset)‏ على لبحو مختلف عن 
حالات مماثلة أخرى. وعادة مايتم تصور الضجيج باعتباره عشوائيأء بما أنه 
- من حيث التصور - نقيض الأنماط أو البنيات في البيانات. Shy‏ هذا 
التماثل انطلاقا من الأيام الأولى التي ظهر فيها جهاز الراديو» عندما كاد 
ماء Ab‏ عن خلفية أخرى» تجعل من الصعب إنتاج الإشارة. وستضم 
البيانات الأولية دائماً مزيجاً من الإشارة والضجيج» وتسعى كل تحليلات 
القت 2 البيانات ال التمييز بين الإشارة والضجيح. 


وقد عمم مۇرخ العلوم - توماس كوهن (Thomas S. Kuhn)‏ )1962( - 
مصطلح النموذج (النموذج الأصلي) (Paradigm)‏ للإشارة إلى مدارس 
الفكر العلمي. وصور كوهن تقدم العلوم» باعتباره عملية تنافسية اصطدمت 
فيها أحيانا مدرسة من مدارس الفكر (نموذج واحد) - ذات باحثين» وطرق 
بحث خاصة بها - مع مدرسة أو نموذج جدید» ضم منخرطين» وتصورات. 
وطرق بحث مختلفة. وعندما يتفوق نموذج جديد على آخر قديم» يسمي 
كوهن ذلك النقلة النوعية (Paradigm Shift)‏ وفى هذا الكتاب» سنقارن ما 
نسمية النموذح التقليدي أو الثابت لتحليل:البيانات: الكمية بالتنقيب في 
البيانات» التي تعتبره النموذج الأصلي ناشئ جديد. قد يحدث التنقيب في 
البيانات نقلة نوعية» ولكن من الممكن أيضاً أن تُستوعب تقنيات التنقيب في 
الا ات عاط د Job‏ تر ULSI ued‏ ابه فى الي و ير 
علماء التنقيب فى البيانات إلى بعديّة البيانات «(Dimensionality)‏ للحديث 
Ne‏ عن مشکل دي بعد مرتفع «(High Dimension)‏ أو عن مشكل يشير 
إلى تخفيض الأبعاد «(Dimension Reduction)‏ و قياس المساحة. کل هذه 
المصطلحات تستعمل استعارة حيزية للتفكير في البيانات؛ فلنشرح» إذن. 
هذه الاستعارة. 
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توجد في الحيز المادي الذي نعيش فيه» ثلاثة أبعاد - الطول» الارتفاع» والعمق 
ols -‏ إحداثيات (Coordinates)‏ ممثلة على المحاور × ول و2. ويمكن لكل من 
هذه الأبعاد الموجودة في الحيز أو الفضاء» تمثيل متغير واحد في مجموعة بيانات ما. 
ومن ثم» فإذا كانت لدينا بيانات بشأن ثلاثة متغيرات - تخص مثلاً طول ees‏ 
وورنهم» ومعدل دخلهم = فسنتعامل مع متغير الطول بصفته X‏ ووزنه بصفته y‏ 
ومعدل دخله بصفته 2. وبعدهاء يكون بإمكاننا تخطيط(2101) كل ملاحظة فى هذا 
الحيز ذي الثلاثة أبعاد. وتحديد موقع القيم على المحاور × ول zy‏ لتمثيل طول JS‏ 
شخص على cido‏ ووزنه» ومعدل calio‏ ووضع نقطة (Dot)‏ في الحيز الذي يوافق 
قيم × ول و2 لذلك الشخص. 


وإذا واصلنا تنقيط مجموعة البيانات برمتهاء فسنرى آلاف النقاط فى الحيزء 
بعضها موجود ضمن تجميعات كثيفة» وبعضها الآخر قائم بذاته. وإن blast oda‏ 
التي وضعت للأشخاص الذين يملكون Lad‏ ممائلة محددة على هذه المتغيرات أو 
الأبعاد الثلاثة» يتدانون فيما بينهم» في حين إن الأشخاص الذين يختلفون فيما بينهم 
وفق الأبعاد الثلاثة» يتباعدون على نحو مستقل . 

ويمكن للرياضيين أن يصوروا أكثر من حيز بمئات أبعاده» ويصطلحون على 
تسميته بالحيز ذي الأبعاد المرتفعة ¢((High-Dimensional Spaces)‏ ففى عالمنا 
ذي الأبعاد الثلاثة» لا يمكننا رسم حيز ذي الأبعاد المرتفعة أو بنائهى كوه 
تصور عالم له أبعاد عديدة. وهذا OV de pel‏ مجموعات البيانات تضم - إجمالا 
- أكثر بكثير من ثلاث متغيرات» وتوافق مجموعة بيانات cle‏ ذات متغيرات BIE‏ 
حيو ذا shal‏ مر تفعة. 


إن JS‏ ملاحظة في مجموعة بيانات ماء يمكن (في خيالنا) تنقيطها في نظام 
إحداثى (Coordinate System)‏ ذي alee‏ الأبعاد. وليس فقط ثلاثة» بحيث يمثل 
كَل بعد متغيراً واحد. ويستخدم علماء التنقيب في البيانات حيز الاستعارة للحديث 
عن قياس المساحة» ويقصدون بذلك الحيز ذا الأبعاد المتعددة الذي يضم بياناتهم. 
كما يفكرون Lal‏ في البنية داخل بياناتهم أو في العلاقات بين المتغيرات في البيانات 
من حيث الأنماط والأشكال فى هذا الحيز النظري ذي الأبعاد المرتفعة. 
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وفي ضوء هذه الاستعارة» تضم بعض البنيات سحاباً كثيفاً من نقاط البيانات 
مجتمعة فى هذا الحيز المتعدد الأبعادء OY‏ قيمها فى عدة متغيرات أو أبعاد متماثلة. 
ويم ر ينات ای اا س tale Obl, bla‏ فى be‏ ی ومع ذلك. إن 
تمثل بنيات أخرى (أو علاقات بين متغيرات) باعتبارها مستويات مسطحة» أو أسطح 
منحنية أو أسطح مشكلة تشكيلاً غريباً. (يسمي الرياضيون هذه الأشكال تحدبات 
«((Manifolds)‏ بحيث يمثل IS‏ شكل من ITA‏ علاقة رياضية ماء بين بعض 
المتغيرات في مجموعة البيانات. 


إن بعض طرق التنقيب في البيانات - في هذا العالم التصوري لأبعاد عديدة - 
تشتغل وفق عملية إسقاط تُترجم البيانات رياضياً من حيز ذي أبعاد أكثر ارتفاعاً إلى 
حيز ذي أبعاد أكثر انخفاضاًء لأنه من السهل التعامل مع مسألة رياضية ذات أبعاد أقل. 
إن هذا الإسقاط ممكن. OY‏ البنيات أو العلاقات البارزة فى الحيز ذي الأبعاد PSV‏ 
ارتفاعاًء WE‏ ما تكون محفوظة عندما يتم إسقاطها في حيز ذي بعد أقل انخفاضاً. 
وهذا Joly‏ عملية تقليص متغيرات عديدة» واكتشاف أن العلاقات الأساسية 
محفوظة. 

وأما طرق أخرى من طرق التنقيب فى البيانات» فتعمل فى الاتجاه المعاكس: إذ 
IS |‏ الى رمس جلها سهولة obs SST aa‏ لدی اغا 
على حيز ذي أبعاد أكثر lela!‏ قد تصبح معالجته أسهل رياضياً باستخدام حيلة 
النواة (Kernel Trick)‏ وتستخدم طرق عديدة من طرق التنقيب في البيانات هذه 
الاستراتيجية» من أجل تصنيف الملاحظات» كما ستبين الأمثلة ذلك لاحقا. 
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Leis)‏ الثانى 
عقد المقارنات بين نموذج التنقيب في البيانات 
وبين المنهجية اللاحصاتية التقليديه 


يقدم التنقيب في البيانات منهجية لتحليل البيانات» تختلف في مناح مهمة عن 
الطرق الإحصائية التقليدية التى Eb‏ هيمنتها خلال العقود القليلة الماضية. فى 
هذا القسم» سنبرز بعض التباينات بين النموذج الأصلي (براديغم)!!) الناشئ للتنقيب 
في البيانات» وبين المقاربة الإحصائتية التقليدية لتحليل البيانات قبل تفصيل القول - 
ضمن فصول لاحقة - فى الطرق أو الأدوات الفردية التى تشكل التنقيب فى البيانات. 
ولبيان هذه التباينات» سنتوسل بالانحدار المتعدد2 (Multiple Regression)‏ 
للإشارة إلى المنهج التقليدي» بما أن هذه الطريقة الإحصائية تشكل doles‏ تحليل 
البيانات التقليدية فى العقود الأخيرة - إلى جانب امتداداتها وفروعهاء بما ففى ذلك 
الانحدار اللوجيستي» وتحليل الحدث التاريخي» والنماذج CS AR‏ المستويات. 
ونماذج التسجيل الخطي «CLog—Linear Models)‏ ونمذجة المعادلة الهيكلية 
(Structural Equation Modeling)‏ 


وستبرر هذه المقارنة المنهجية بعص مواطن الضعف والصعوبات داخل 
النموذج الأصلي التقليدي» التي لم تعد إشكالية في منهجية التنقيب في البيانات. 
(1) لم استعمل كلمة «نموذج» بمفردها بل أضفت لفظ براديغم إلى جانبهاء be yo‏ لأي خلط قد يحصل في 
الفهم بين (Paradigm) y “Model?‏ الكلمتين الإنجليزيتين اللتين تترجمان بنفس اللفظة العربية «نموذج» 
)2( تترجم العبارة أيضاً ب «التراجع المضاعف»» وقد تكون الأنسب في المجال الحاسوبي» غير أننا لا نمانع 
استخدام الاثنين (المترجم). 


Df 


ومع ذلك» لا يعني gle‏ هذه المنهجية من المشاكل» عندما ترانا نشدد على مزالق 
النموذج التقليدي» بل على العكس من ذلك تماما؛ فللتنقيب في البيانات نقائصه. 
التي سيحدد بعض منها في الأقسام اللاحقة. 

القوة التنبؤية في النموذج الإحصائي التقليدي 

في التحليلات الإحصائية التقليدية مثل الانحدار» يركز محلل ما - عادة - على 
القيم الرقمية« أو معاملات (Coefficients)‏ ذات متنبئات مهمة في نموذج ما. إن 
القوة التنبؤية أو التناسب التنبؤي (Fit)‏ لذاك النموذج» عادة ما تكون له أهمية ثانوية 
(Breiman, 2001)‏ وكل ذلك راجع إلى الهدف الرئيس للعديد من الباحثين ممن 
يستخدمون الطرق التقليدية» اختبار فرضيات حول متنبئات (Predictors)‏ خاصة» أو 
فهم كيفية ارتباط المتنبئات الفردية بالمتغير التابع (Dependent Variable)‏ وتمثل 
تلك العلاقات» المعاملات بالنسبة إلى كل متغير في انحدار من الانحدارات أو 
نموذج تنبؤي آخر. 

ومع ذلك دائماً ما SE‏ قياسات ناشب النموذج (Model Fit)‏ في تحليلات 
بيانات تقليدية. ويعد قياس R?‏ وقياس R?‏ المعدل (Adjusted)‏ أكثر القياسات 
cle gt‏ إذ عادة ما يتم تفسيرها بنسبة تباين المتغير التابع» الذي يُشرح بمزج التنبؤات 
في النموذج. وتوجد قياسات أكثر تعقيداً للتناسب في سياقات أخرى» ومجموعة 
كاملة من إحصاءات التناسب» بما فيها A) A’‏ عدد أولي)ء و«كابا» (Kappa)‏ ومعيار 
أكايكى للمعلومة (AIC)‏ ومعيار pl‏ للمعلومة (BIC)‏ ومعيار المخاطرة فى 
التضخم (RIC)‏ ومعيار pl‏ الممتد للمعلومة» ومقاييس شبه-۸» واحتمال له 
نسبة 2- ) Log-Likelihood‏ 2-). ولكن الفكرة العامة التي نحن على وشك 
توضيحهاء تنطبق على هذه المقاييس كلها. 

وفي مقالات تستخدم الطرق التقليدية» تنشر في مجلات بحث رائدة في العلوم 
الإنسانية. عادة ما توجد نماذج تنبؤية حيث نسبة التباين التي تم تفسيرها فيهاء جدا 
متواضعةء قد تصل مثلاً إلى /25 أو أقل من ذلك. ولكن هذا المستوى المنخفض من 
القوة التفسيرية» نادراً ما ينظر إليه على أنه ينال من مصداقية دراسة ماء أو يتم التعامل 
معه باعتباره اتهاما لجودة النموذج. 
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ومن النادر أيضاً ما يركز كتاب مقالات بحثية في مجلات عديدة» على مقدار 
الجن فى ا من قبل نموذجهم الخاص؛ بل من النادر 
جدأء وجود أي تفسير موضوعي حول التباين ء غير المفسر لنموذج ما .حك rd bows‏ 
واحد منذ عقود مضت عندما حاد كريستوفر (Christopher Jencks) Sie‏ 
وزملاؤه عن العادة في كتابهم الرائد اللا مساواة Cinequality)‏ )1972( وفسروا 
التباين غير المفسر لنموذجهم الخاص للحركية الاجتماعية بتأثير «الحظ». وخلف 
ذلك الكثير من الانتقادات )1973 (Coleman et al.,‏ 


ونتج عن هذا الجدال - على ما يبدو - إجماعاً داخل النموذج الأصلي التقليدي 
يفيد بوجود اعتبار التباين غير المفسر Gal «(Unexplained Variance)‏ من مزيجح 
خطاً مقياس (Measurement Error)‏ وعوامل سببية محذوفة. وما دام gh ls lool‏ 
نموذج آخر ذو دلالة إحصائية بشكل عام» وتو جد متنبئات ols dob‏ دلالة إحصائية 
sels‏ النموذج. فإن الإعلان عن نموذج تظل فيه الغالبية العظمى من التباين غير 
مق يقن مقرل Le glee‏ وتات oa)‏ الد م الاج رالات 
الرئيسة في العلوم الاجتماعية والسلوكية. 


وفي المقابلء يركز التنقيب في البيانات - على نحو أقوى بكثير - على تعظيم 
القوة التنبؤية لنموذج cle‏ مما يعني تقليص مقدار التباين غير المفسر قدر الإمكان. 
وإن تفسير /25 من تباين المتغير التابع فقطء قد يعتبر Lal‏ غير ملائم من قبل العديد 
من علماء التنقيب في البيانات. وكما سنأتي على ذلك لاحقاء سيستكشف عالم من 
علماء التنقيب في البيانات طرقاً مختلفة - وأحياناً يمزج العديد منها - وذلك تحديدا 
لتعظيم القوة التنبؤية العامة. ويقوم علماء التنقيب في البيانات بذلك. OV‏ التنبؤ 
الدقيق هو في الغالب غايتهم الرئيسة في النمذجة. بما أن القيم المتنباً بها ستستخدم 
في حالات العالم الواقعي للإفصاح عن قرارات وإجراءات. 

وخلاصة القول. إن المنهجية الإحصائية التقليدية» تركز على المعاملات الفردية 
بالنسبة إلى المتنبئات» ولا تكترث كثيراً للقوة التنبؤية. ويعمل التنقيب في البيانات 
العكس» وهذا التباين فى الأهداف» يشكل النقطة الرئيسة الأولى سادق الا 
ا soll‏ النمو ذج الأصلي التقليدي. 
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يا ترى» ماذا يمكن أن يقول التنقيب فى البيانات والإحصاءات التقليدية لبعضهما 
بعضاً إذا كانت لديهما أهداف مختلفة؟ ولما كان تركيز التنقيب في البيانات يقع على 
القوة التنبؤية «(Predictive Power)‏ تمكنت بذلك من تطوير بعض الأدوات 
التحليلية الجديدة القوية؛ ولكن ليس من الواضح دوماًء مدى إمكانية اندماج نقاط 
قوة التنقيب في البيانات في التنبؤء ضمن إطار العلوم الإنسانية التقليدية التي تولي 
أولوية خاصة لتقييم فرضيات حول متنبئات خاصة. وتأثيراتها التقديرية. من المرجح 
- فى رأينا - أن يحدث التنقيب فى البيانات تغييرات كبرى فى مجال البحث 
الاجتماعى والسلوكى» وفى الغاية الإحصائية فى البحث الطبى الحيوي 
(Biomedical)‏ وفي كثير من الحالاات» تقدم أدوات التنقيب في البيانات» قدراً من 
القوة التفسيرية تفوق بكثير النماذج الإحصائية التقليدية التي من الأرجح» ينجذب 
الباحثين الي استخدامها. ولح oe‏ العلماء الاجتماع. والسلوكيين: وباحثين 
آخرين على فهم آليات سببية «(Causal Mechanisms)‏ والأهمية التى يولونها 
لتقديرات التأثيرات بالنسبة إلى المتنبئات الفردية (تقاس باعتبارها معاملات متغيرات 
محددة)» لا تختفي على الأرجح. وتظهر إحدى التسويات في تطوير بعض أدوات 
التنقيب فى البيانات الجديدة التى توفر معلومات حول الآليات» إضافة إلى الانشغال 
القديم للتنقيب في البيانات» بتعظيم الدقة في التنبؤ (انظر (Pearl, 2000 Ses‏ 

اختبار الفرضية في المنهجية التقليدية 

لقد تمت داخل النموذج الأصلى الإحصائى التقليدي الذي هيمن على الطرق 
الكمية.» والصلات (Linkages)‏ بين النظرية وتحليل البيانات من خلال اختبار 
فرضيات حول معاملات إحدى المتغيرات التابعة أو أكثر» في نموذج تنبؤي ما. على 
سبيل المثال» قد يركز باحث ما أو محلل بيانات على مسألة cbs‏ إن كان معامل انحدار 
ماء بالنسبة إلى متنبئع محدد ومهم نظريأء له دلالة إحصائية؛ ففي مُخْرّجٍ الانحدار, تتم 
عملية نقل معامل كل متنبع إلى جانب إخضائية اختبار (اختبار = MCt-test)o‏ 
اختبار - ز (z-Test)‏ وقيمتها م (p-value)‏ المترابطةء أو مستوى الدلالة 


(3) يشير الحرف اللاتيني م إلى الكلمة اللاتينية (8700876»» ويعني القيمة الاحتمالية. وهو مصطلح يستعمل 
فی مجال g cLa Yi‏ أنه عبارة عن عدد يستعمل في تأويل أو تقييم المقاييس اللإحصائية (المترجم). 
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.(Significance Level)‏ والقيمة م المترابطة SS‏ متنبى (Predictor)‏ هی احتمال 
الحصول على قيمة احصائية الاختبار التى تعد كبيرة مثل تلك التى رصدت» ومتوقفة 
على صدق الفرضية الصفرية أو Null Hypothesis) (etal)‏ 


ونادراً مايتم اختبار فرضية ما - داخل المنهجية التقليدية - التي تفحص إمكانية 
أن يكون للتأثير المشترك لمتغيرات عديدة دلالة إحصائية. وأحياناء يتم اختبار فرضية 
ماء لاستكشاف ما إن كان نموذج واحد ogee‏ مختلفاً - بشكل كبير - عن نموذج 
بديل أو متفوقاً عليه. 

وتا عن هذه التفاصيل. يقدم اختبار الدلالة Significance Testing)‏ داخل 
المنهجية التقليدية» طريقة من طرق الحكم على إمكانية أن تكون نتيجة ماء تمثيلية 
A : (Representative)‏ ما إن كانت القيمة التقديرية (An Estimate)‏ المشتقة من 
عينة واحدة أو من مجموعة من الترصدات» ستكشف عن دقتها لدى تطبيقها على 
عدد أكبر من السكان الذين أخذت منهم العينة (Sample)‏ وعندما نجد لمعامل 
الانحدار Ya‏ إحصائياء ستنتج عدم إمكانية حدوث dune dod‏ - رصدناها فی 
arn "> be‏ الضيدفة عير (Sampling Error) OW p Wai‏ يعد اختبار 
الدلالةء إذنء طريقة من طرق تقييم إمكانية أن تنطبق نتيجة ما في عينة شخص be‏ 
على العدد الأكبر من السكان التى أخذت منها العينة. 

ومع ذلك. أثار العديد من علماء الإحصاء انتقادات خطيرة بشأن الممارسات 
المتفق عليها بشكل عام فى العلوم الاجتماعية والسلوكية» وفي البحث الطبى بما فيه 
اختبار الدلالة الذى أصبح يعرف ب «اختبار JYI‏ الجدلى)» (Significance Test‏ 
(Morrison and Henkel 1970) (Controversy)‏ یری هؤلاء النقاد أن العديد من 
الباحثين» يسيئون استخدام اختبارات الدلالة على نحو يقوض صلاحية النتائج 
الواردة في تقريرهم. وسنلخص بعض انتقاداتهم» ثم نبين أن التنقيب في البيانات 
دائما ما يتبنى منهجية بديلة لتقييم النتائج» منهجية لا تعتمد اعتمادا كبيرا على اختبار 
)4( تترجم عبارة (Null Hypothesis?‏ في عالم المال ب «فرض MEL‏ وفي مجال الطب ب «فرضية 
البطلان». 
)5( تترجم العبارة أيضاً ب «خطأ المعاينة» (المترجم). 


41 


وتؤكد إحدى الانتقادات أن قرار تجاهل متنباً ما ذي قيمة p‏ (دلالة) 051.. 
واعتبار line‏ ذي قيمة 094. ذي دلالة» مضلل. وتفيد إحدى مضامين ذلك بضرورة 
ترك deel‏ أو حجم التأثير (Effect Sizes)‏ - حجم المعامل أو التأثير - على 
الجانب التحليلى أو التأويلى» بدلا من التركيز فقط على ما إذا كان معامل المتنبأ مهما 
(Nickerson 2000) Use| aes el‏ 

أما المأخذ الثاني على سوء استخدام اختبار UYU!‏ فيتجلى في كون القيمة 
الحرجة المستخدمة بشكل مشترك من قبل باحثين» للبت فى إمكانية دلالة معامل ما 
إحصائياً صغيرة د في سياقات عديدة» ويؤدي إلى انتشار أخطاء من نوع | (Type‏ 
I Errors)‏ (النتائج إيجابية كاذبة .((False Positives)‏ ويشمل هذا الجدال الدائرء 
مخاطر التعدد (Multiplicity)‏ عندما يضم الانحدار أو نماذج أخرى» العديد من 
المتنبئات (Benjamini 2010, Hsu 1996; Saville 1990; Schaffer 1995; Tukey‏ 
)1991. وفي نماذج تضم العديد من المتنبئات» يرى النقاد عدم ملاءمة استخدام 
القيمة الحرجة التقليدية (Conventional Critical value)‏ (قيمة T‏ أو 1.96 (Z=‏ 
لتقييم الدلالة الإحصائية لكل متنبى» بما أن تلك القيمة الحرجة التقليدية تنطبق 
JRE‏ اسب على july ciety Bybee‏ على مات متعددة» كل تسب امار 
الدلالى )1977 .(Larzelere and Mulaik‏ ويزداد احتمال وجود نتيجة wld‏ دلالة 
ا باللاخرل إلى الكتعات فى gl‏ م ج ely OV‏ من oda‏ اجات 
ببساطة - تكرر اختبار الدلالة العديد من المرات. وسيكون لمتنبئ واحد من أصل 
عشرين» دلالة عند 0.05 > ep‏ عبر الحظ (احتمال) فقط. ويدور هذا الجدال أيضاً 
حول إمكانية أن تكون الاختبارات بالنسبة إلى المتنبئات المختلفة في نموذج ماء 

ويمكن تجنب مشكل التعدد أو عملية اختبار العديد من التأثيرات أو المعاملات 
في نموذج oly‏ من خلال تعديل القيمة الحرجة المستعملة للبت في المتنبئات 
دات الدلالة ote glee YI ope JOU lee]‏ المقارنات التعدةة: Jol loess‏ 
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الحلول المتحفظة (Conservative)‏ إخضاناء في استخدام تصحيح بونفيروني 
(Bonferroni Correction)‏ للمقارنات المتعددة. وإذا كانت هناك خمسة متنبتات 
Wee -‏ - عوض القبول GL‏ متنبئ كان» بحيث تكون 05.>م قيمة احتمالية ذات 
دلالية» فإن المرء يقبل فقط متنبئاً من المتنبئات» بحيث تكون 01.>م (gh)‏ قسمة 
القيمة التقليدية ل 0.05 على عدد المتنبئات). Joly liag‏ استخدام قيمة حرجة 
)62.58 عوض 1.96 بالنسبة إلى نموذج انحدار يضم خمسة متنبئات» أو قيمة 3.48 
بالنسبة إلى نموذج «ls‏ دي مائة Ae pone‏ 


وما تعديل بونفيروني «(Bonferroni Adjustment)‏ إلا تصحيح تعدد ممکن» 
يمكن تطبيقه على اختبارات الدلالة التي تنقلها البرمجيات الإحصائية العادية. وتضم 
أكثر المنهجيات تطورا Clie cote‏ معدلات اكتشاف 4315 (False Discovery‏ 
Rates)‏ ومعدلات الخطأ > العائلة (Benjamini (Family- Wise Error Rates)‏ 
)2010 .5 ]15 كانت المجلات البحثية تشترط هذه التعديلات بالنسبة إلى هذه النماذج 
التنبؤية التي تضم هذه المتنبئات المتعددة» فإن ورود النوع الأول من الخطأ (Type I‏ 
Errors)‏ (الإيجابي الکاذب) «(False Positives)‏ سيتقلص بشكل كبير. ومع ذلك 
تستمر المجلات البحثية البارزة في قبول استخدام قيمة حرجة ل 1.96 في نماذج 
ذات متنبئات متعددة» مما يؤدي إلى تعريات حول عدم قابلية استنساخ البحوث 
«(Ioannidis 2005)‏ على الرغم من عقود من الانتقادات في هذه الاتجاهات. 

وتتفاقم هذه القضية المترابطة باختبار الدلالة في سياق المتنبئات المتعددة عندما 
يبحث بعض الدارسين بشكل فعال عن تأثيرات ذات دلالة إحصائياء من خلال تحليل 
متنبئات عديدة إلى أن يعثروا على نتيجة old‏ قيمة 1 أو Z‏ ل1.96 أو أكبر» ثم يضمونها 
في نموذج نهائي» ومقرر باعتبارها قيمة ذات دلالة. وتعد قيمة حرجة ما ل 1.96 
بالنسبة إلى اختبار الدلالة مضللة جداء إذا ما تم تقييم مئات المتنبئات AN gh‏ قبل JE‏ 
فقط تلك التي أثبتت أن لها دلالة إحصائيا. 

وزادت حدّة هذه المشاكل AST‏ في البحث الطبي وفي تحليلات سلسلات 
جينية» بحيث أصبح خضوع آلاف اختبارات الدلالة للتجربة» أمر T‏ شائعاً بشكل متزايد 
قبل نقل أهمها )2010 (Benjamini,‏ وتحذر الكتب المدرسية التي تتناول الطرق 
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«التنقيب» (Fishing)‏ (التي تحمل معنى البحث والتنقيب)» أو «تجريف البيانات» 
.(Data Dredging)‏ كما توصي الكتب المدرسية» الباحثين بطرح فرضياتهم مقدما 
قبل تحليل البيانات بغية تجنب إغراء المضى فى البحث بعد المعلومة (Fact)‏ عبر 
المتنبئات العديدة الممكنة. ولسوء الحظ, ما يزال العديد من الباحثين «ينقبون») عن 
النتائج ذات DVI‏ مستخدمين قيمة حرجة منخفضة 1.96:T)‏ أو 0.5 > 0) بالنسبة 
إلى الدلالة الإحصائية. 


وكما أشرنا إلى ذلك UL‏ ثمة حلول ناجعة للتعامل مع التعدد داخل النموذج 
الأصلي التقليدي؛ ولكن معظم طرق التنقيب في البيانات - كما سنفصل القول في 
ذلك LY‏ - تتبنى منهجية مختلفة لتقييم تمثيلية نموذج ما (مستخدمين شكلاً من 
أشكال المضاعفة «((Replication)‏ المعروفة بالصلاحية المتبادلة (Cross—‏ 
Validation)‏ تتحاشى مشكلة التعدد برمته» ولا يقوم على اختبار الدلالة. وتلكم هي 
النقطة الثانية الرئيسة التي يختلف فيها التنقيب في البيانات مع النموذج الأصلي 
التقليدي. 


عدم تجانس التباين باعتباره تهديداً للصلاحية في النمذجة التقليدية 

بعيداً عن مسألة التعدد. تتأثر أيضاً دقة الافتراضات الدلالية في النموذج الأصلي 
التقليدي ببعض الافتراضات النظرية الإحصائية التي تشكل الأساس لنماذج انحدار 
متعددة» وأقربائها الإحصائية )1993 (Berry‏ سنوضح بعضا منها بهدف وضع 
الأسس لمفارقة أخرى lee‏ وبين التنقيب في:البيانات: 

يقوم نموذج ما - لكل حالة أو رصد على حدة في مجموعة بيانات - بتقدير 
فة Slee‏ للهدف (متغير تابع). وإذا ما طرحنا هذه القيمة المتنبأة من القيمة 
المرصودة. فسنحصل على عدد يعرف بالقيمة المتبقية «(Residual)‏ الحو تمثل Ue‏ 
التنبؤ (Prediction Error)‏ بالنسبة إلى JS‏ رصد فردي. فالقيمة المتبقية إذن» نوع 
خاص من متغير من المتغيرات. وتلخيصاً للقيم المتبقية (أو الأخطاء) عبر JS‏ 
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إن مجموعة من الافتراضات الكامنة وراء المنطق الإحصائي للانحدار المتعدد 
والطرق المتصلة به» تفيد بضرورة توزيع القيم المتبقية بشكل «gale‏ ذات تباين 
ثابت» gog‏ سط قيمة الصفر «CA Mean of Zero)‏ واستقلالية عن بعضها فا 
وعندما تكون هذه الافتراضات digs‏ يقال عن الأخطاء إنها هوموسيداستيك 
CHomoscedastic)‏ وهي مصطلح يوناني يعني «ذات تباينات متساوية» أو متمائلة 
التفاوت. 


وعندما تكون هذه الافتراضات غير دقيقة» يقال إنها هيتروسيداستيك 

«(Heteroscedastic)‏ أي ذات تباينات غير متساوية. ويحدث عدم تجانس التباين 
(Heteroscedasticity)‏ في الغالب» عندما تكو ن القيم المتبقية أو أخطاء التنبؤ أكثر 
انتشاراً (ذات تباين أعلى) بقيم منخفضة أو عالية لمتنبأ معين (أو (X‏ من أخرى بقيم 
معتدلة لذلك المتنبأ X‏ أو أحياناً تكون القيم المتبقية أكثر انتشاراً بقيم منخفضة أو 
عالية (للمتغير التابع) ¥ من غيرها بقيم معتدلة للمتغير التابع ¥. ومؤدى ذلك أن 
gid Rte sa l eh ge)‏ )عبر مجر عا Rane‏ من لجو PE gE‏ 
ويأخذ في التراجع (أي ب يصبح أقل دقة) في مكان آخرء ليبلغ في الغالب» قيماً قصوى 
من قيم ×و/ أو Y‏ 

ثمة اختبارات إحصائية لتحديد إمكانية أن تكون الأخطاء ذات تباينات غير 
متساوية» ولكن غالباً ما سيرسم الباحثونء القيم المتبقية مقابل كل متغير كا و/ أو JS‏ 
متغير لا. وضمن هذه الرسومات البيانية» يأخذ عدم تجانس التباين شكل القمع. 
بحيث يزداد التباين في الأخطاء على مستوى الجزء الكبير من القمع. 

pie ay Vy) وو تنقيا‎ ob Lad جود‎ Gene Jy 2 gi lal 
يخلف عدم تجانس‎ GU تجانس التباين مشكلاء يظهر في تحليلات كمية عديدة.‎ 
التباين عواقب وخيمة تسبب في التخيزات التي - في نظرنا - تقوض دقة بعض‎ 
لمعالجة مشكل عدم تجانس‎ fell يقدم التنقيب في البيانات عدا من‎ | WE. البحوث‎ 
أو التحايل عليه في بعض الأحيان.‎ sabai 

ثمة أسباب متعددة تؤدي إلى حدوث عدم تجانس التباين» فتجعل منه مشكلة 
واسعة الانتشار. 
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© عندما تكون وحدات التحليل في مجموعة بيانات» تجمعات أو تراكمات 
wis (Aggregates)‏ أحجام مختلفة Nes)‏ احتواء مدارس على أعداد مختلفة من 
الطلبة)» وتكون متغيرات JS‏ وحدة على حدة (مثلاً)» متوسط درجات اختبار التقييم 
المدرسي (SAT)‏ لدى الطلاب» يظهر في الغالب» عدم تجانس التباين» GY‏ ستكون 
أخطاء أكثر في القياس بالنسبة إلى المدارس الصغيرة» حيث متوسط درجات اختبار 
التقييم المدرسي يقوم على عدد أكبر من الطلاب. 

٠‏ ويحدث عدم تجانس التباين أيضاء عندما تضم مجموعة بيانات ساكنات 
فرعية» التي تظهر علاقات مختلفة بين YX‏ .يكون تحليل cle‏ وهو يتنبا بتأثير أخذ 
دروس التقوية داخل الكلية في ترك الدراسة» ذا تباين غير متساوء وينتج معاملات 
مضللة إذا ما ضمت العينة - Me‏ - طلبة المرحلة الجامعية من المجتمع» ومن 
الكليات ذات الزمن الممتد لأربع سنوات على de‏ سواء» وحدث أن كان BEY‏ 
دروس التقوية فى الكلية تأثير مختلف جدا فى ترك الدراسة بالنسبة إلى طلبة كلية 
المجتمع «(Community College)‏ عن aie‏ الكلية ذات التكوين الممتد لأربع 
سئوات. 

© كما يمكن أيضاً حدوث عدم تجانس التباين عندما تقاس المتنبئات بشكل 
غير مناسب» Sue‏ عندما يستخدم الدخل عوض سجل الدخل متنا (Predictor)‏ 

© وأخيرأء يحدث عدم تجانس التباين عندما تكون علاقة ما (ضرورية» ولكن 
غير كافية». على سبيل المثال» قد ترتفع نفقات إجازة السفر بارتفاع دخل الأسرةء بما 
أن المرء يحتاج إلى دخل كافٍ لتحمل تكاليف السفر. ولكن لا يستلزم ذلك ارتباط 
الدخل المرتفع بكثرة نسبة الأسفار. وبناء على US‏ عندما يتم تنبؤ نفقات السفر 
انطلاقاً من دخل العائلة» يحدث قدر كبير من أخطاء التنبؤ (Prediction Errors)‏ (أي 
القيمة المتبقية) على مستوى الدخل المرتفع أكثر مما يحدث على مستوى الدخل 
المنخفض. وسيظهر ذلك باعتباره علاقة إيجابية ما بين الدخل والفترة المتبقية 
(Residual Term)‏ 

إن عدم تجانس التباين منتشر في كل أنواع البيانات» وله عواقب وخيمة على 
النماذج التقليدية؛ ففي حالة انحدار المربعات الصغرى العادية (Ordinary Least‏ 
«Squares Regression)‏ لا ينحاز عدم تجانس التباين في تقديرات معاملات 
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الانحدار أو المتنبّئات» ولكنه ينحاز في تقديراته للأخطاء المعيارية بالنسبة إلى تلك 
المتنبئات» ومن ثمء يقدر اختبارات الدلالة تقديراً منحازأء يتم نقله إلى تلك 
المعاملات من معاملات الانحدار .CRegression Coefficients)‏ وهذا ما قد ينتج 
خطأ من نوع el‏ مما يؤدي بالباحثين إلى استخلاص خاطئ مفاده أن لمعامل متنبئ ما 
دلالة إحصائية» في وقت تنعدم فيه هذه الدلالة أصلاً - أو تنتج تحيزات متزايدة 
لأخطاء معيارية» تفضي إلى خطأ من نوع 11ء أي تؤدي بالباحثين إلى الاعتقاد في أن 
بعض المعاملات ليست لها دلالة» في وقت تتحقق فيه هذه الدلالة. والمشكلتان 
Law WS‏ تفكلان تهديدا de Le‏ التقليدية : 


وفى حالة الانحدار اللوجيستىء والاحتمالية (Probit)‏ والتقنيات ols‏ الصلةء 
التي تتنباً بالمتغيرات الثنائية أو القطعية. يكون لعدم تجانس التباين نتائج أكثر سوء. ذلك 
بأنه يتحيز لمعاملات الانحدارء وكذا أخطائتها المعيارية )2010 Williams,‏ .1). 


سر A i tu we & ié‏ 
ولا يتفق كل الباحثين مع حجتنا التي تفيد OF‏ عدم تجانس التباين يخلق مشكلا 
خطيراًللنماذج التقليدية؛ فالمختصون في علم الا قتصاد القياسي (Econometricians)‏ 
- مثا - طوروا مقدرين (Estimators)‏ خاصين للأخطاء المعيارية» تعرف بمقدري 
الشطائر «(Sandwich Estimators)‏ أو مقدري هابير - وايت (Huber- White‏ 
.Estimators)‏ والأخطاء المعيارية القوية (Robust Standard Errors)‏ التى يقال 
علماء إحصاء آخرين» فى مصداقية هذه التدابير التصحيحية )2006 «(Freed man,‏ 
لكونها لا تشكل حلا سريعا. 
إن التنقيب في البيانات يقدم أدوات متعددة لتحديد و/ أو معالجة عدم التجانس 
(Heterogeneity)‏ الذي يعزى حدوثه Use‏ إلى قياس Ls Line‏ قياساً Np‏ أو إلى 
علاقته غير الخطية بالمتغير التابع. وسنعرض في قسم لاحق» لأدوات التنقيب في 
البيانات المعروفة باسم توزيع الخانات (Binning)‏ أو تفريد zl‏ وبي (Entropy‏ 
Discretization)‏ التى تسمح للمحللين بتحديد التأثيرات اللا خطية؛ وإذا ماتم تقدير 
هذه الأدوات بشكل صحيح في نموذج ماء فإن مصدر عدم تجانس التباين قد يزول. 
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يعد عدم تجانس التباين أحيانأء نتيجة لتفاعلات إحصائية مهمة» استبعدت من 
نموذج ما. وتقدم أدوات التنقيب في البيانات بما في ذلك تقسيم البيانات (Data‏ 
Partitioning)‏ أو أشجار القرار (Decision Trees)‏ لصقل مجموعة LL,‏ 
للتفاعلات» وتحديد التفاعلات الأكثر أهمية. وإذا ما حدد المحللون تلك التفاعلات 
ونمذجوهاء فإن عدم تجانس التباين سيتقلص. وعلى نحو مشابه» يوفر التنقيب في 
البيانات طرقاً من أجل تحديد مجموعات فرعية فى مجموعة بيانات ماء ذات علاقات 
مختلفة بين المتنبئات والمتغير التابع . E eee‏ مجموعات فرعية مميزة. 
داخل مجموعة بيانات من خلال استخدام التنقيب في البيانات» يكون بإمكان 
الباحثين البت في إضافة إجراء تحاليل منفصلة لكل مجموعة فرعية على حدة 
(Melamed, Breiger, and Schoon 2013)‏ . وفى كلا الحالتین» oY‏ من أن يقلص 
هذا عدم تجانس التباين. l‏ 


ولكن في حالات آخری» یری محللون أن فترة خطأ (Error Term)‏ نموذجهم هي 
ف وط ادات انات ع تساوية بوسر ة لمعيف و اع eda‏ ساتم 1 
فتر باينات غير متساوية. ومع دلك» ععجزوا عن تحديد اسباب 
الرغم من جهودهم المثلى. وفي هذه الحالة - كما سنشرح ذلك في قسم لاحق = يملك 
التنقيب في البيانات ١حيلة»‏ لتعيير نماذج لم تعيّر في البداية بسبب عدم تجانس التباين. ولا 
تحدد هذه الحيلة E‏ المشكلة as‏ المقام الأول» ولكن يمكن أن تقدم Lele‏ لإزالة 
تلك المشكلة. 


وأخير Jj‏ تعد العديد من طرق التنقيب في Yoo‏ معلمية (Nonparametric)‏ 
ذلك بأنها لا تستلزم أنواع الافتراضات الإحصائية حول توزيع فترات الخطأ التي تقوم على 
مجموعة من الطرق التقليدية المنمذجة. وبينما تعجز طرق التنقيب في البيانات - في هذه 
الحالات - عن منع حدوث عدم تجانس التباين في البيانات. تستطيع مع كل هذاء التحايل 
على بعض آثارها المدمرة أو الصعبة. 

تحدى العينات المعقدة وغير العشوائية 

في النموذج الأصلي التقليدي» عادة ما تقاس الاختبارات الدلالية الإحصائية لكل 
متنبّئ في نموذج انحدار ماء برزم إحصائية من خلال استخدام صيغ تفترض فكرة تشكيل 
البيانات» عينة عشوائية بسيطة «(Simple Random Sample)‏ مستمدة من سکان ST‏ 6 
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وأحياناء يكون ذلك الافتراض غير مبرر. وتشمل العديد من الدراسات الاستقصائية: 
مخططات أخذالعينات متعددة المراحل 


NGI‏ الخد tell oll‏ افيه بين ورات IS‏ يقري lel‏ :مدل الملا وال 
البريدية «(Zip Codes)‏ وبعدها أخذ عينات على مستوى BY‏ 31 داخل کل وحدة من تلك 
الوحدات ذات مستوى أعلى. وتعد الأخطاء المعيارية بالنسبة إلى العينات متعددة 
Sle fol poll‏ بكثير من الأخطاء المعيارية بالنسبة إلى العينات العشوائية البسيطة مع وجود 
عدد الترصدات أو الحالات (/7) نفسها. وإن استخدام العينات العشوائية البسيطة, (SRS)‏ 
ae‏ رتكاف نه لدعو phased ol‏ ابر AMG‏ 099 جور - لا تظهر الحقيقة الكاملة 
للخطأ المعياري لكل متنبوع على حدة» وبذلك تبرز نتائج إيجابية 4315 Thomas and)‏ 
(Heck 2001‏ 


ويمكن استعمال مقاربات متعددة داخل البحث التقليدي لتكييف الأخطاء المعيارية 
بالنسبة إلى التصاميم المعقدة للعينة. وتعرف معاملات التصحيح الأولى باسم (DEFF)‏ 
أي (تأثيرات التصميم)؛ كما تستخدم البرمجيات الأكثر حداثةء خطية تايلور Taylor)‏ 
01+ لتقدير الأخطاء المعيارية المصححة؛ وهذه علاجات فعالة على الرغم 
من عدم استخدامها من قبل كل الباحثين. 

ومع ذلك يصبح اختبار الدلالة إشكالية أكثر» عندما يريد الباحثون تحليل بيانات 
ليست عينات عشوائية مستخلصة بشكل منتظم. ويصادف دارسون - بشكل متزايد - 
مجموعة بيانات مأخوذة من سجلات تنظيمية» أو مشتقة من de gles‏ مأخوذة من الشبكة 
العنكبوتية (The Web)‏ أو من مصادر أخرى كبيرة. وليست هذه المجموعة من البيانات 
مستمدةعشوائياً من الساكنين معروفة» على الرغم من احتمال أن تكو ن كبيرة جدا. والعبارة 
التقنية التي يمكن إطلاقها على هذا النوع من مجموعة البيانات (Dataset)‏ هي العينة 
المقبولة أو المريحة (Convenience Sample)‏ أما بالنسبة إلى هذا النوع من oll‏ فإن 
الاختبارات التقليدية للدلالة الإحصائية التي تفترض أن الباحث يحلل عينة عشو ائية بسيطة 
مستمدة من ساكنين ماء هي اختيارات غير ملائمة تماماً. 
)6( سنستخدم عبارة Jol)‏ العينات»» ومصطلح «المعاينة» بالتبادل لترجمة الكلمة الإنجليزية (Sampling)‏ 
دون أن يترتب عن ذلك تغيير في المعنى. 
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اختبارات تمهيدية وتبادلية 

إن للتنقيب في البيانات إجراءات متعددة يمكنها تجنب مزالق مترابطة باختبار 
الدلالة في النموذج الأصلي التقليدي. وتشمل أحد حلول التنقيب في البيانات اختبار 
دقة الاستدلالات عبر المضاعفة والصلاحية التبادلية. وسنفصل القول في تلك 
الأفكار في قسم لاحق. ولكن يطبق حالياً - على نحو واسع - حلاً ثانيأء يعرف ب 
العملية التمهيدية (Bootsrapping)‏ على الاختبارات الدلالية» والنماذج الإحصائية 
التقليدية» وكذا داخل التنقيب في البيانات نفسهاء وهي التقنية التي سنناقشها ابتداء 


.(Mooney and Duval 1993) 
من‎ 5 
في الداخل‎ of 5 


pet من‎ %2.5 \ fy من‎ %2.5 

متوسط العينة) متوسط العينة» 

t هذا «الذيل‎ t هذا سينا بقع‎ J è 
P 





الشكل رقم 1.2: توزيغ متوسط العينة. 

وتستخدم المقاربة التقليدية لاختبار الدلالة (التي تسبق العملية التمهيدية) 
توزيع المعاينة «(Sampling Distribution)‏ بغية تقدير الخطأ المعياري» ثم الدلالة 
الإحصائية أو قيمة p-‏ لتقدير ما. إن توزيع المعاينة هي توزيع تم الحصول عليه نظريا 
(ممثلاً في شكل صيغة رياضية أو في شكل رسم بياني على نحو مرئي» كما هو مبين 
في الشكل رقم 1.2( الذي يصف كيفية Be‏ التقديرات المستخلصة من عينات 
عشوائية مأخوذة من ساكنين ماء بالقيمة الحقيقية لذاك المعلم في الساكن. 

لقد تم وضع افتراض (يسمى أيضاً افتراضاً معلمياً) من الافتراضات حول 
صلاحية توزيع معاينة نظرية» لدى استعمالها في تحليل معين بغية الحصول على 
فترات الثقة أو قيم-6 لكل انحدار خاص أو نموذج آخر. ولسوء الحظ إذا ما تم 
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الإخلال بذلك الافتراض» فستكون الاستدلالات التي تم بلوغها حول الدلالة 
الإحصائية. خاطئة. 


وتتجلى إحدى الطرق التي تلف هذه الصعوبة» في استخدام تقنية لا معلمية 
تعرف باسم العملية التمهيدية» إذ تستعول استراتيجية تجريبية لتحديد الأخطاء 
المعيارية» والحصول على الدلالة الإحصائية أو قيم-ص بالنسبة إلى مجموعة بيانات 
معينة أو تحليل تم إجراؤه» بدلا من وضع افتراض حول شكل توزيع المعاينة. 

إن الل a‏ الط lie‏ حح ال ال ةة أو Sa patel‏ 
لبيانات يحللها باحث cle‏ كما لو أنها تمثل السكان برمتهم. وتستمد عملية التمهيد. 
Ole‏ فرعية عشوائية عديدة من هذه العينة الوحيدة. وقبل استخلاصها swe yl‏ 
الأول وضمه في عينة فرعية؛ تعيد استبدال تلك الحالة في العينة» ثم تختار عشوائيا 


jes‏ آخراء مستبدلة SUS‏ داخل التجمع «(The Pool)‏ وتتكرر العملية al‏ أن تننج 
عينة ممهدة (Bootstrap Sample)‏ مساوية من حيث العينة الأصلية» وهذا ما يعرف 


بالمعاينة باستبدال (Sampling with Replacement)‏ وتتكرر هذه العملية لبناء - 
على ما يبدو - آلاف العينات الممهّدة. 

ولكل عينة من هذه العينات الممهّدة العديدة» تقدّر - إذن - برمجيات إحصائية» 
ذات أهمية قد تكون متوسط عينة cle‏ أو معامل انحدار بالنسبة إلى متنبوع ما خاص 
ضمن نموذج معين. وستكون النتيجة» آلاف التقديرات المختلفة AUS‏ الإحصائية. 
ومن أصل آلف تقدير ممهد من هذه التقديرات» يتم بناء توزيع ماء يستخدم في تحديد 
الدلالة الإحصائية لأي إحصائية من العينة الأصلية (العينة اللا ممهدة) (Non‏ 
(800151582260: بحيث يقيس واحد منها ote‏ التقديرات من أصل الآلاف منها التى 
تقع داخل مسافات متنوعة من مركز التوزيع. ويُحسب قيم p-‏ المترابطة بتلك 
المسافات. 

ولا تضع عملية التمهيد (أو تقنية من التقنيات ذات الصلة المسماة بالمطواة(7 
(Jackknife)‏ أي افتراضات حول شكل توزيع المعاينة. وكلاهما اجراءان تجريبيان 
محضان» يستعملان فى قوة حوسبة قاسية (Brute Computing Power)‏ مكرّرين 


)7( أخذ هذا الاسم من «الخنجر السويسري»» لامكانية استعماله في أشياء متعددة بشكل مفيد جدا 
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EPE dae Jel UU deed 3 pe aT كاملا أو اا اخ انيما‎ E 
إجرائياً معتبرآء ولو على الحواسيب السريعة.‎ 

ومع ذلك» يستخدم علماء التنقيب في atu‏ خا منهجية قوة قاسية (Brute‏ 
Force)‏ أخرى لاختبار الدلالة - المعروفة باسم اختبار المبادلة (Permutation‏ 
Test)‏ أو اختبار دقيق -Exact Test)‏ فى سياقات تستحيل فيها الدلالة التقليدية. 
jad‏ أن تمرذجك الزن iby‏ من Let‏ مات ومتغير تام واحت وکل 
خانة فى جدول ممتد أو مصفوفة بيانات» تمثل إحدى متغيرات المتنباً أو المتغير 
التابع. (تمثل السطوره والناس أو الحالات). إن برمجيات اختبار المبادلة» تخلط 
القيم داخل خانة ما. على سبيل المثالء إن القيم الموجودة داخل الخانة من أجل لا 
- المتغير التابع أو المستهدف - قد تبدّل عشوائياً بقيم أخرى موجودة سلفاً في تلك 
الخانة» وتنتمى إلى OVE‏ أو ترصدات أخرى. وهذا الخلط أو التبديل يخلط - عن 
قصل - قيم لا عبر الترصدات. 

إن الإبدال (الخلط) يدمر أي بنية (أو علاقات) كانت موجودة سلفاً بين متنبئات 
ولا المد le UE‏ سيل SSI‏ قبل SLY‏ فد كر 5 هتاك giles) BLS I‏ بي 
0 الأفراد الذين كانت لهم قيمة عالية على × قد تكون لهم Lal‏ قيمة عالية على 
eY‏ وفي الغالب» إن أولئك الذين كانت لهم قيما منخفضة على CX‏ لهم قيما منخفضة 
على -Y‏ ولكن من خلال القيام بخلط قيم داخل خانة Y‏ سيكون فرد ما ذو قيمة ما 
على × مرتبطاً We‏ بقيمة شخص آخر على ۷. لقد تمت إزالة البنية السابقة للارتباط 
(Correlation)‏ واستبدالها بالعشوائية. ولكن لاحظ أن القيمة المتوسطة للمتغير Y‏ 
والانحراف المعياري ل Y‏ سيتم الاحتفاظ بهما. 

ومن ثم» يشعّل برنامج إحصائي cle‏ النموذج التنبؤي نفسه الذي شغله سابقاً 
بالنسبة إلى البيانات الأصلية الحقيقية» وحالياً بالنسبة إلى هذه البيانات المجمّعة أو 
الممزوجة. وسيمنح ذلك مقياس تناسب - 82 مثلا - بالنسبة إلى مجموعة البيانات 
الممزوجة والمجمّعة. LS)‏ يمكن التركيز على إحصائية أخرى. مثل التركيز على 
معامل ما لمتنبئع خاص. ويبقى المنطق نفسه ساري التطبيق). 

وتتكرر هذه العملية من خلط نموذج ما وحسابه بعد ذلك» العديد من المرات. 
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قد تصل إلى ألف مرة. ومن ثم» فإن للباحث حالياً قيمة R?‏ للبيانات الصحيحة 
والحقيقية» وكذا لألف قيمة أخرى من القيمة الإحصائية e R?‏ بواقع واحدة لكل من 
العينات ذات بيانات عشوائية أو ممزوجة. ويأخذ ذلك وقتا حاسوبيا كثيرا بشكل 
واضح. ويمكن لباحث ما أداء هذا الإجراء في نهاية مشروع تحليل ماء فقط عندما 
يكون واثقا جدا بالنموذج النهائي» ويريد مستوى دلالي لذلك النموذج. 

وبعد ذلك» يقارن الباحث قيمة R?‏ (أو إحصائية أخرى old‏ أهمية) في a‏ 
ذي البيانات الحقيقية بالقيم الموجودة ف في النموذج المختلط. Voi, ward‏ امكاقة أن 
OK‏ ناليس إلى Gio‏ ي أكبر من القيم بالنسبة إلى ألف نموذج ممزوج 
برو فق od Slavs‏ يمكن W‏ استنتاج أن احتمال الحصول على bage R?‏ هو أقل من 
واحد في الألف (0.001> Cp‏ على اعتبار أننا فحصنا 1000 عينة» ولا تملك أي عينة 
R?‏ بهذا الحجم. إن لف نموذج من نماذجنا التي تحتوي على بيانات ممزوجة. 
تجسيد واقعي للحظ: إذ من خلال تجميع البيانات» نكون قد قسنا فقط عدد المرات 
التي حدث فيها حجم معين ل ”۸ «بمحض الصدفة». 

وبعدهاء تصور أن هن نين "R‏ نموذج عشوائي (hls)‏ عشرة نمادج لها R7‏ 
مساوية (أو أكبر R? (ge‏ بالنسبة إلى النموذج ذي البيانات الحقيقية. ثم» إن احتمال 
الحصول - صدفة - على R‏ التي تم إيجادها بالنسبة إلى النموذج الحقيقي» هو 
gi +10/1000‏ إن 0.01 = ص. فى المقابل» إذا أفضت عملية الخلط إلى 500 من أصل 
00 ا سيف كرون لها gle‏ ار aR? ye ST‏ لحمل عليها ESL‏ إلى 
عينة البيانات الحقيقية (غير المختلطة) JYI ols «CNon-Shuffled)‏ الإحصائية 
بالنسبة إلى بيانات حقيقية لشخص ماء هي 0,5 وسيكون من السهل وقوع النموذج 
الحقيقي الذي لا دلالة له إحصائيا عند مستوى 0.05 فقط بمحض الصدفة. 


tes‏ هذا الإجراء التبادلي» نوع من اختبار دقيق (Exact Test)‏ لا يفترض 
افتراضات حول شكل توزيع aii R‏ أي إحصائية أخرى خضعت للفحص. كما يعد 
هذا الإجراء kal‏ شكلا من أشكال محاكاة مونتى كارلو (Monte Carlo‏ 


. Simulation) 
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ولتخليص هذا القسم حول اختبار الفرضيات» نزعم أن النقاط الرئيسة الواجب 
تذكرها هو أن اختبار الدلالة» يقوم بدور حاسم في المنهجية الإحصائية التقليدية. 
حيث تستعمل للبت في المعاملات أو التأثيرات التي من المرجح أن تختلف عن 
الصفر في مجموع السكان الكبير الذي أخذت منها العينة. ومع ذلك» اشتكى النقاد 
من أن ممارسات الباحثين اليومية في النمذجة التقليدية» غالبا ما تسيء استخدام 
اختبار الدلالة» مخلفة أخطاء معيارية صغيرة بشكل غير سليم» ونتائج إيجابية كاذبة 
عديدة. وإن أكثر مشاكل اختبار الدلالة خطورة» تحدث عندما يضيف واضعو النماذج 
متنبئات عديدة إلى النماذج خصوصاً لدى بحثهم في مئات المتنبئات قبل بتهم في 
المتنبى الذي ends‏ في نموذج ما. 

وفى رد فعل على هذه الأخطاء» قال بعض المختصين فى التنقيب فى ULI‏ 
وبعض الت بالتخلي عن اختبار UY‏ جملة وتفصيلاً )2007 AS‏ 
إن معظم المختصين في التنقيب في البيانات» ليسوا بتلك الشدة» ولم يرفض معظمهم 
اختبار الدلالة برمته؛ وإنما ركزوا بشكل أكبر على المضاعفة والصلاحية المتبادلة 
باعتبارهما بديلين عن اختبار الدلالة عند تقييم نموذج تنبؤي. 

علاوة على ذلك» إلى حدود منح تطبيقات التنقيب في البيانات» اختبارات 
الدلالة للمتنبئين الفرديين» فهي تستخدم - على الأرجح - اختبارات الدلالة التي 
تقوم سواء على عملية التمهيد» أو على اختبارات المبادلة» مما يسمح بتجنب العديد 
من المزالق المترابطة بالمقاربة التقليدية. 

البرمجة اللا خطية في نماذج التنبؤ التقليدية 

في نموذج انحدار عادي» تستخدم عدة متغيرات مستقلة أو متنبئات (لندعوها 
لك ورک و,) للتنبؤ بمتغير تابع (لندعوها CY‏ وقبل إنتاج نموذج cle‏ عادة ما تتحول 
تلك المتنبئات التى تمثل الفئات الاسمية (مثل الجمهوري» والديمقراطى. 
والمستقل»» إلى TIN‏ من متغيرات وهمية أو صورية (Dummy Variables)‏ 
بحيث يأخذ كل منها قيمة صفر أو واحد. 


وأما المتغيرات المستقلة المستمرة «(Continuous Independent Variables)‏ 
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مثل العمرء أو الدخل» أو سنوات التعليم» المسماة بقياسات الفاصل الزمني 
(Interval)‏ أو قياسات النسبة (Ratio)‏ فهي عادة ما تدخل ضمن انحدار في شكل 
بسيط As‏ العمر بالسنواتء أو الدخل بآلاف الدولارات. أو التعليم بالسنوات. إن 
معامل الانحدار بالنسبة إلى تلك المتغيرات الأخيرة قد 2 تقليدياً باعتباره التغيير 
في ٠¥‏ المرتبط بزيادة وحدة واحدة (One-Unit)‏ في × فيما يتم التحكم في 
المتغيرات المستقلة الأخرى. 

ويفترض هذا التفسير أن العلاقة بين X‏ ما ولاء علاقة خطية: أي إن زيادة وحدة 
واحدة من × في النهاية السفلى من سلم X‏ مرتبط بالقدر نفسه من التغيير في لا 
باعتباره زيادة وحدة واحدة ل × في القيم العالية ل ×. وبتعبير آخرء إن رسم × مقابل 
لا على الرسم البياني قد ينتج خطا مستقيما. ولكن ماذا لو اقتحمنا الشك في امكانية 
أن تتنوع العلاقة عبر قيم مختلفة ل × ؟ (سينتح ذلك منحنية (Curve)‏ من المنحنيات 
أو خطأ ملتوياً (Wiggly Line)‏ إذا ما تم رسم × مقابل AY‏ 


في بعض الحالات» يكون من البساطة نسبياً استبدال فترة زمنية مستمرة أو متنبى 
نسبة بمجموعة من المتغيرات الوهمية أو الصورية (بحيث يأخذ كل منها قيمة واحد 
أو صفر) التي ستمكننا من إدراك إمكانية وجود علاقة لا خطية بين × ماء أو لا. ومثال 
ذلك» عندما تستخدم أعوام من التعليم بصفتها Lace‏ يفترض العديد من الباحثين أن 
تأثير أعوام من التعليم غير خطي» ومن ثم إعادة ترميز التعليم في مجموعة متغيرات 
وهمية - على سبيل المثال أقل من خريج مدرسة ثانوية» خريج مدرسة ثانوية» وكلية 
ماء ودرجة الباكالوريوس» درجة الماجستير أو درجة أعلى. وبعدهاء تستطيع تلك 
المتغيرات - وهي تدخل بصفتها مجموعة ضمن تحليل انحدار تقليدي بفئة محذوفة. 
تعمل عمل فئة مرجعية - اجتلاب علاقات خطية بين التعليم ولا على مستويات 
مختلفة من التعليم. 

وحسب العديد من المتنبئين الآخرين» مع ذلك. لا يدرك باحث ما في وقت 
مبكر ما إن كانت العلاقة بين متغير × خاص Vy‏ علاقة خطية. وتفترض الممارسة 
المعتادة في بحث كمي تقليدي» العلاقة الخطية. اللهم إلا إذا كان لشخص ما داع 
قوي لتبني عكس ذلك الطرح. ومن ناحية» يعد ذلك مجرد مسألة وقت وجهد: 
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وتستغرق مسألة فحص اللا خطية بالنسبة إلى العديد من المتنيئات» bby‏ طويلاً 
rari‏ 


ومع ذلك» يحدث شيء آخر أكثر أساسية من مجرد الوقت والراحة» ذلك بأن 
قسماً كبيراً من الإحصائيات التقليدية قام على تصور الارتباط - أي المدى الذي 
يحقق فيه متغير ما زيادة في القيمة» ويخضع الآخر أيضاً لتغييرات. ويمكن لمجموعة 
بيانات برمتها أن تحتل بمصفوفة الارتباط «(Correlation Matrix)‏ أو مصفوفة 
تباين - التغاير CVariance—Covariance Matrix)‏ التى تلخص العلاقات بين 
المتغيرات. l‏ 

ولسوء الحظء إن معامل الارتباط «(Correlation Coefficient)‏ يقيس hz‏ 
العلاقة الخطية بين أي زوج من المتغيرات» وتهمل أي مظهر لا خطي. وتبسط - 
أحياناً - مسائل» فتفرض حلا غير مناسب. ولكن مع تطور التعلم SM‏ وطرق أخرى 
كثيفة حاسوبياً» لم يبق هذا التبسيط ضرورياً. وتتوفر طرق GI‏ جديدة يمكنها 
البحث عن علاقات لا dbo‏ والعمل على صياغتها. وفي بعض الحالات. ستنتح 
هذه الطرق تنبؤاً أكثر دقة. 

إن هذه الأدوات الجديدة من أدوات التنقيب في البيانات الأكثر بساطة» تمكن 
الباحثين فقط من تصور بياناتهم: لرؤية العلاقات اللا خطية بين متغيرين أو أكثر 
باعتبارها peer‏ انطلاقاً من رسوم بيانية بسيطة أو مخططات التشتت (Scatterplots)‏ 
إلى تصورات أكثر MLS‏ تمثل أسطحاً منحنية يمكن إدارتهاء والنظر إليها من زوايا 
عديدة. ففي غامب te (JMP)‏ تدعى إحدى أدوات التصور الأكثر إفادة» المحلل 
أو المرسام (Profiler)‏ وبعد تشكيل نموذج cle‏ يمكن للمرء استعمال هذه الأداة 
لمعرفة مدى تأثر قيم أي متغير كان» في وقت تتغير فيه قيم متغيرات أخرى. 

وبعيداً عن التصور» يمكن لإجراءات التنقيب في البيانات الأخرىء توليد نقاط 
التوقف «(Breakpoints)‏ بشكل آلي بالنسبة إلى متغيرات مستقلة مستمرة بهدف 
اجتلاب تأثير لا خطي ل × ما في لا. Se‏ قد يشير تحليل شجرة انحدار (CART)‏ 
ما (التصنيف وشجرة الانحدار - نوع من تقسيم بيانات أو نموذج شجرة) إلى تأثيرات 
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لا خطية للدخل في ¥ لتجد نقاط توقف دخل els‏ بواقع $20,000 و560,000 
$90,000« و $150,000 . 


وتشمل طريقة بديلة لاستكشاف علاقات لا dhe‏ في البيانات» عملية Gla,‏ 
عليها مختصون في التنقيب في البيانات اسم توزيع الخانات (Binning)‏ وعموماء 
يشمل توزيع الخانات» تحويل متغير رقمي مستمراً مثل الدخل داخل مجموعة من 
الفئات أو خانات منظمّة. ولهذاء فعوض تمثيل الدخل بالدولارات التي تتراوح ما 
بين الصفر $1,000,0005 وأكثرء يصنف توزيع الخانات حالات أو أشخاص إلى 
فئات مثل صفر إلى 55000؛ 55001 إلى 515,000؛ و515001 إلى $25,000؛ 
وهكذا. وثمة مصطلح آخر يستخدم في هذا الصدد. يدعى التفريد :(Discretization)‏ 
ol‏ يجعل من فئات منفردة شيئا كان مستمرا. 

وثمة نوع مفيد - بشكل خاص - من توزيع الخانات» يدعى توزيع الخانات 
الأمثل (Optimal Binning)‏ أو التفريد القائم على py‏ وبي (Entropy- Based‏ 
Discretization)‏ للتعامل مع العلاقات اللا خطية. إنها تموضع نقاط التوقفات بين 
الخانات على نحو يعظم تنبؤ متغير تابع لا. وبتعبير آخر» تختار الحدود المخصصة 
لكل خانة من قبل البرمجيات على نحو يجعل الحالات في GLE JS‏ مختلفة قدر 
الإمكان عن OLE‏ أخرى من حيث god‏ على (Witen, Eibe, and Hall 2011, Y‏ 
(316. وهذا مفيد جداً في تحديد علاقات لا خطية بين منتبئ ومتغير تابع. 

وسنقدم أمثلة في أقسام لاحقة» ولكن في هذه المرحلةء إن الفكرة الرئيسة 
الواجب تذكرهاء هي أنه عند استخدام طرقا إحصائية تقليدية» سيستغرق منا ذلك وقتا 
طويلاء وأحياناً تكون مسألة حظ لتحديد علاقات لا خطية بين كل متغير من المتغيرات 
المستمرة المستقلة العديدة وبين المتغير التابع» وأنه نتيجة لذلك كله» يكون اعتياديا 
أو من الشائع التعامل مع العلاقات باعتبارها خطية. ويقدم التنقيب في البيانات حالياء 
أدوات متعددة (Automate) sY‏ البحث في علاقات لا خطية» وما ذلك إلا سبب 
دفع - جزئياً - نماذج التنقيب في البيانات للميل إلى التنبؤ - على نحو أكثر دقة - 
بنماذج مشابهة لانحدار تقليدي. 
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تفاعلات إحصائية في نماذج تقليدية 

Stal doled عد دير الجماعماتك‎ Sade i! Ga b UL 
.Y «(Outcome Variable) للتنبؤ بمتغير النتيجة‎ (Covariates) متغيرات مشاركة‎ 
على سبيل المثال» قد يتظر باحث في التعليم حول دور الإعداد الأكاديمي لطالب ما‎ 
المرحلة الثانوية» ووضع العائلة الاجتماعي الاقتصادي» ومتطلبات الشغل»‎ os 
والدعم المادي في نموذج ما ليتنبأ بالطلاب الذين يتركون الدراسة. قد يكون هدف‎ 
See تحديد أهم متنبى أو أكثر تأثيراً في خطر ترك الدراسة في الكلية (انظر‎ te 
(Attewell, Heil, and Reisel 2011 

ولکن» یری تشارلز راجين (Charles Ragin)‏ )2008( أن العديد من المشاكل 
الاجتماعية» تحتاج إلى منطق مختلف Llas‏ عن منطق الهدف المذكور» وذو هدف 
مختلف: ويتجلى في فهم تراكيب عوامل مترابطة بنتائج مختلفة» عوض إبعاد دور 
oleae‏ الفردية. وعبّر راجين عن ذلك ب «تضبيط أو تهيئة الشروط مقابل المتغيرات 
المستقلة». ويمكن دمج «تضبيط الشروط» في انحدار تقليدي ونماذج ممائلة من 
خلال ضم بنود التفاعل بين المتنبئين (انظر لمزيد من التفصيل Aiken and West‏ 
and Jaccard and Turrisi 2003‏ 1991 ). 


وإذا كان من الممكن ضم بنود التفاعل في نماذج تقليدية» فلا يعني ذلك أن يقوم 
٠‏ وس 

الباحثون بذلك بصورة روتينية؛ على العكس من ذلك» يشتكي كل من إلويرت 
ووينشيب )2010 (Elwert and Winship‏ من أن الأغلبية الساحقة من الدراسات 
الكمية المنشورة في علم الاجتماع» تنقل فقط التأثيرات الأساسية (نموذج ذو متنبئات 
متعل دة » دول تفاعلات) . ومن ناحية» تحدث إزالة التفاعلاات coda‏ من النماذج 
التنبؤية» لأن (بحسب هذين المؤلفين) العديد من الباحثين أساؤوا فهم معنى 
معاملات التأثير الرئيس في الوقت الذي تتم فيه «التحكم في» متغيرات مشاركة 
أخرى. بالإضافة إلى US‏ يصدر OLE‏ تأثيرات التفاعل فى مقالات بحثية منشورة 
عن مشاكل عملية: ثمة أعداد هائلة من تفاعلات محتملة بين المتنبئين. ومن أصل 8 
تنبئات» توجد 28 تفاعلات فى اتجاهين )3 (OLS‏ زائد تفاعلات إضافية ذات 
gel ere‏ وكيف يحدد باحث ما التفاعلات الاستتباعية (Consequential)‏ من 
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إلويرت (Elwert)‏ ووينشيب oi (Winship)‏ معظم صانعي النماذج من الاجتماعيين» 
يهملون هذه المهمة ويقتصرون على نماذج التأثير الأساسية. 

ود حضيمون lala‏ كل من راجن slaxe Ob Cats pally‏ على 
تأثيرات رئيسة في نماذج إحصائية تقليدية» نقطة ضعف خطيرة» وأن على الباحثين 
التركيز أكثر على تحديد تفاعلات معقدة بين المتنبئات المتعددة. 

وقد توصلت إلى ذلك تقنيتان في التنقيب في البيانات بشكل سريع - سيتم 
تفصيل القول فيهما فى فصول لاحقة (التصنيف وشجرة الانحدار (CART‏ وفى 
مربع للكشف عن التفاعل التلقائي (CHAID)‏ - من خلال اختبار آلاف التفاعلات 
الممكنة أو التركيبات من بين المتنبئين» لتحديد التفاعلات المستتبعة لمتغير تابع 
خاص والتفاعلاات غير acne‏ وبمجرد تحديدهاء تستحخدم بعل ذلك تلك 
توصية راجين لدراسة «تهييئات الشروط». عوض (متغيرات مستقلة». 

كما بلغت تقنيات أخرى من التنقيب في البيانات تأثيراً مماثلاًء من خلال توليد 
ما يعادل التفاعلات بشكل آلي» داخل نماذجها التنبؤية. وتعد نماذج الشبكة العصبية 

وفي الغالب» يمكن لنماذج التنقيب في البيانات. التفوق على نماذج إحصائية 
تقليدية من حيث التنبؤء أو في نسبة التباين التي تم شرحهاء ذلك بأن نماذج كثيرة 
جداًء تهمل التفاعلات بين المتنبئات (سواء من خلال إزالتها بأكملها أو ضم فقط 
قليل منهاء من أصل تفاعلات محتملة عديدة)» في حين تعد طرق التنقيب في البيانات 
أكثر شمولية أو دقة فى تقييمها للتفاعلات واستعمالها من بين التنبؤات. 
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الجدول رقم 1.2: مفارقات بين النمذجة التقليدية والتنقيب في البيانات. 


- ليس التنبؤ محط تركيز | - التنبؤ محط تركيز رئيسي 
e‏ ت 
رسي - تقيم قوة تنبؤية عالية 


اختبار الدلالة - أساس التعميم - تعميم من لدن الصلاحية 
بت am‏ في تقييم المتبادلة بدل اختبار 
الفرضيات وتفسير الآليات | الدلالة 
- بعض ممارسات الاختبار | بعض التقنيات» «علب 
ا الو سوداء» GLE)‏ أي 
معلمات مفيدة) 
بافتراضات المعاينة البوتسرابينغ أو العملية 
- كل العينات يتوقم أن | التمهيدية واللا معلمية 
تكون عينات عشوائية | - إقرار العينات المقبولة 
سيطة أو عشوائية bans‏ 
WE -‏ مايتم تجاهلها أو | - تعريف آلي sj‏ 
إهمالها 


- غالباً ما يتم تجاهلها أو | - تعريف آلي جزثياً 
إهمالها للتفاعلات: SU,‏ ات غر 
ارغ الو SEU‏ انع | المتجانسه 
hala |‏ 





يلخص الجدول رقم 1.2. المفارقات المختلفة التي استخلصناها بين النمذجة 
الإحصائية التقليدية والتنقيب في البيانات. وفي الفصول الموالية» سنشرح كيف 
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تؤدي طرق التنقيب فى البيانات أداءً مختلفاء بل يمكن القول إنها أفضل من المنهجية 
التقليدية» ومن ثمة» فهى متفوقة فى التنبؤ. 


فى هذا الفصل» قمنا بوصف جوانب متعددة من المقارنات بين منهجيات 
التنقيب في البيانات للتحليل الكمى من del‏ وبين نمذجة إحصائية تقليدية من 
ناحية أخرى. كما ركزنا على الطرق التي يستتبع فيها منظور التنقيب في البيانات 
بعض الانتقادات لأكثر المنهجيات رسوخا في تحليل البيانات. ماذا يعني هذا بالنسبة 
إلى العلاقة المستقبلية بين البحث فى التنقيب فى البيانات» وبين البحث الإحصائى 
التقليدي؟ من وجهة نظرناء من ا جا ااا Casall‏ قن البياناة F‏ 
الات الاخصائة Jarrell yey dell‏ أن كرون عا من عملية اجن 
أكثر تطورأء حيث يستخدم محللو المنهج الكمي - بشكل متزايد - بعض أدوات 
التنقيب في البيانات في عملهم» وحيث تشق بعض وجهات النظر الأكثر عمومية» 
الناشئة عن التنقيب في البيانات» طريقها صوب التنفيذ ونقل التحليل الكمي في 
العلوم الاجتماعية والسلوكية. ونتوقع أنواع التحولات القصيرة المدى التالية: 
© سيولي الباحثون - بشكل متزايد - اهتماماً بإمكانية علاقات لا خطية بين 
المي نات والنتائج. من خلال الاستفادة من أدوات التنقيب في البيانات مثل 
توزيع الخانات الأمثل والأشجار لونتاج متنبئات جديدة» تمثل النظم 
اللا خطية بشكل أفضل. وستضاف هذه المتنبئات المعدلة إلى نماذج معينة. 
وستساعد - في بعض الحالات - على الرفع من دقة النماذج التنبؤية. وسنقدم 
أمثلة على ذلك ضمن الفصول القادمة. 
© سيصبح البحث عن التفاعلات الإحصائية بين المتنبئات» أكثر انتظاماً أو 
شمولية» وذلك بالاعتماد على أبحاث Haye‏ فى التفاعلات الإحصائية 
المشابهة للنوع الذي سبق تقديمه في اذو اك ما غامب برو (JMP Pro)‏ 
و/ أو باستخدام أشجار القرار أو طرق التقسيم - مثل مربع لكشف عن 
التفاعل التلقائي (CHAID)‏ وشجرة الانحدار (CART)‏ - التي تحدد 
التفاعلات. ومن ثم» فسيصبح = حسبما نتوقع - من الشائع رصد عملية ضم 
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العديد من بنود التفاعل فى نماذج تنبؤية تقليدية» ستحسن من جديد دقة 
النموذج» R?‏ . أو التناسب (Fit)‏ 


© ومن الأرجح أن يفحص الباحثون بياناتهم لرصد SE‏ عدم التجانس» 
وإمكانية اختلاف معاملات المتنبئات في نموذجها التنبؤي بصورة ملحوظة 
بالنسبة إلى مجموعات فرعية مختلفة داخل العينة أو الساكنة. إن طرق 
التجميع التي يقدمها التنقيب في البيانات» والأدوات البارزة أدناه» مثل 
نماذج مختلطة (Mixture Models)‏ وانحدار الفئة الكامنة» تيسر البحث 
في التأثيرات غير المتجانسة وتميل إلى تقديم نظرة أكثر تعقيداً أو دقة 
لعمليات اجتماعية وسببية» مبتعدة عن نظرة «مقاس واحد يناسب الجميع». 


© وقد يشهد الباحثون في النهج الكمي تحولاً في الرؤى - بحسب مدى 
تأثرهم بالتنقيب في البيانات في القادم من الأعوام - فيصرفون النظر عن 
هدف بناء نموذج تنبؤي dels‏ الذي يعد جهدهم الأفضلء ويتبنون مقاربة 
مستلة من التنقيب في البيانات» تشكل نماذج تنبؤية متعددة مختلفة. 
مستخدمين في الغالب طرقاً متباينة للغاية» وتمزج بشكل مثالي التنبؤات من 
هذه الطرق المتعددة لإنتاج تنبؤ نهائي» أكثر دقة من ذلك المحصل عليه من 
أي نموذج كان. وتنجز هذا أدوات التنقيب في البيانات المعروفة باسم 
التعزيز (Boosting)‏ وطرق طقم منسجم الأجواء (Ensemble Methods)‏ 
Ups, Sl‏ فى فصول eee‏ وعم هذا سان ن EE‏ 
CR Jas yall‏ التقليدية. 

© إننا نتوقع هنا بقاء اختبار الدلالة الإحصائية في العلوم الاجتماعية 
والسلوكية» وكذا في البحث التربوي والطب الإحيائي» على الرغم من 
الجهود المرحلية لإقناع المحررين لإلغائه لصالح التركيز على أحجام تأثير. 
ومع ذلكء نتوقع أن تؤثر ممارسات التنقيب في البيانات - بشكل متزايد - 
في الممارسات التقليدية الراهنة وتعديلها فيما يخص حساب مستويات 
الدلالة أو قيم P-‏ ونقلها. ويمكننا سلفاً معرفة أن شعبية تقنيات إعادة المعاينة 
(Resampling)‏ مثل اختبارات تمهيدية وتبادلية» في تنام مستمر» ومرد 
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الل Lee‏ إلى نال ات ده Cael godly‏ الفائقة المبرعة سر 
أكثر من عملية الحساب» OV,‏ هذه الطرق اللا معلمية لحساب الأخطاء 
للتصديق. كما تميل هذه الطرق الأكثر حداثة لحساب القيم-م OY‏ تكون 
أكثر تحفظاً من المقاربات القديمة - لتنتج في الغالب» أخطاء معيارية ST‏ 
ومن ثم إنتاج معاملات دلالية اقل. من المرجح - على ما يبدو - أن تقلص 
هذه الطرق مقدار الخطأ من نوع 1» وسيبدأ ذلك» عملية تقليص مقدار 
البحث غير القابل للإنتاج أو التكرار. 
وقد تحدث خطوة أكبر نحو بلوغ هذا الهدف» إذا بدأ محررو المجلات يفرضون 
مقالات بحثية كمية لاستخدام طرق الصلاحية المتبادلة المألوفة في التنقيب في 
البيانات. وقدمنا باختصار منطق الصلاحية المتبادلة coe‏ وسنهدم أمثلة صمن 
الفصول المتتاليةء ولكن تتمحور الفكرة الجوهرية حول كون JS‏ دراسة ستقسّم 
بياناتها عشوائياء وتختبر ما إن كان في إمكان نموذج تنبؤي ماء المتطور انطلاقاً من 
قسم من البيانات» التنبؤ بدقة» مستخدماً مجموعة من الترصدات التي لم تستخدم في 
إنتاج النموذج التنبؤي. وتعد الصلاحية المتبادلة AKS‏ من أشكال المضاعفة التي 
«رفع الحاجز» (Raise the Bar)‏ لتقييم دليل تجريبي. وفي رأيناء سيكون لتبني 
الصلاحية المتبادلة» تأثير مهم ومفيد في العلوم الاجتماعية الكمية. 
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النصل الثالث 
استراتيجيات عامة مستخدمة 
في التنقيب في البيانات 
صلا حية متبادلة 


اد تجرف البنانات > الى الت فى et‏ إل غا | سحاد خللافات 
ذات دلالة إحصائياً - عملية تستهجنها الكتب المدرسية التقليدية في الطرقء التي 
Alba be‏ رات قبل ااال ا عا ونو ع cei: Blin‏ 
في البيانات بتجريف البيانات إلى GUI‏ جديدة - ولكن ما يحسب لهاء عدم مجاراتها 
المثل السيء للنموذج الأصلي التقليدي» فيما يخص اختبار الدلالة لما تكون هناك 
متنبئات متعددة. إنها تركز - في المقابل - على طريقة بديلة من طرق تجنب نتائج 
إيجابية - كاذبة أو تجنب النوع الأول من الخطأ Type I Error)‏ أي إنها تركز على 
المضاعفة (Replication)‏ عوض اختبار الدلالةء عبر إجراء ما يعرف بالصلاحية 
المتبادلة. 


وقبل البداية لتحليل cle‏ متضمن للصلاحية المتبادلة» تفصل بر مجيات التنقيب 
في البيانات الحالاات داخل مجموعة بيانات صمن مجموعات مختلفة. جيف خياد 
و e‏ ع e e‏ 
كل حالة او ترصدء. لمجموعة أو أخرى. (إن التخصيص العشوائي هنا أمر حاسم). 
وعادة ما سمح برمجيات الب في البيانات المستخدم» باختيار dus‏ الحالاات من 
مجموعة OLLI‏ الأصلية المخصصة لكل مجموعة. 


© تعرف مجموعة أو مجموعة فرعية عشوائية من الحالات أو الترصدات بعينة 
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ادرب أو عي التقدير» وهاه هى de pores‏ االات الى سكلل Noh‏ 
لونتاج نموذج تنبؤي. 

© ويتم إنتاج بعض طرق التنقيب في البيانات» وليس جميعهاء المعروفة بعينة 
الموالفة (Tuning Sample)‏ (وتدعى أحيانا عينة (Validation cud!‏ 
(Sample)‏ إنها تستعمل لتقدير بعض مَعْلّمات النمذجة التي تنتج تنبؤا 
أمثل. على سبيل المثال» تمزج بعض تقنيات التنقيب في البيانات نماذج 
تنبؤية منفصلة ضمن أفضل مجهود نهائي في التنبؤء مما يستدعي اتخاذ قرار 
حول الكيفية التي يتم بها وزن التنبؤء انطلاقاً من JS‏ نموذج من هذه النماذج 
لدى مزجها. وفي هذا السياق» يمكن استخدام هذه العينة العشوائية الثانية 
من الحالات - بيانات عيئة الموالفة - لحساب أوزان بديلةء حتى يكون في 
مقدور مخطط الترجيح النهائي إنتاج التنبؤ الأكثر دقة» (وهذا ما aes‏ 
بالأمثلية (Optimization)‏ وفى سياقات أخرى من سياقات التنقيب فى 
البيانات» vee‏ عينة الموالفة في المقابل» للبت في عدد المتنبئات التي 
ينبغي أن تدخل ضمن نموذج ما. 

© وتعد مجموعة ثالثة من الترصدات المنتقاة عشوائيأء محورية فى الصلاحية 
المتبادلة» وهذه عينة الاختبار التى تدعى سد العينة المستبعدة (Holdout‏ 
Sample)‏ ولا يستعمل اختبار العينة - re‏ حال من الأحوال - خلال إنتاج 
النموذج التنبؤيء وإنما يحتفظ به منفصلا بأكمله. على نحو متعمد GI)‏ 


ree 


وخلال الخطوة الأخيرة» ضمن تحليل من تحليلات التنقيب فى البيانات» يطبق 
نموذج تنبؤي تم توليده باستعمال البيانات في dus‏ التدريب (Training Sample)‏ 
(وأحياناً تشمل Lad‏ بيانات عينة الموالفة(16م5350 (Tuning‏ على بيانات عينة 
الاختبار الجديد). ويولّد النموذج قيماً slice‏ للهدف بالنسبة إلى حالات الاختبار 
الجديدة هذه» وتقارّن تلك القيم SEES‏ بالقيم الحالية المرصودة للهدف في بيانات 
yN]‏ حست الإحصاء التطابقي بالنسبة إلى هذه العينة من عينات الاختبار» مع 
توثيق مدى دقة تنبؤ النموذج المقدر سابقاً بالمجموعة الجديدة من الترصدات. 
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من قبل اختبار الدلالة في المنهجية التقليدية: إنها طريقة من طرق تقييم تعميم نتائج 
البحث. ويمكنك أيضاء التفكير في الصلاحية المتبادلة باعتبارها نوعا من أنواع ضبط 
الجودة بالتسة ال نمادج | a‏ البيانات. 


ويتجلى الفرق في المنهجيتين في تناول التعميم» في كون أنه في النموذج 
الأصلي التقليدي» تكشف اختبارات الدلالة الإحصائية عن إمكانية تعميم النتائج 
المحصّل عليها من عينة معينة على السكان الذين أخذت منها العينة عشوائيا. علاوة 
على tld‏ يعد تقييم التعميم (Generalizability)‏ تقييماً نظرياً أو افتراضياء بحيث 
لا يملك الباحث بيانات حقيقية للسكان بأكملها. في المقابل» يعد اختبار التعميم في 
مجال التنقيب في البيانات» اختباراً تجريبيء بحيث Get‏ نموذج من النماذج التي تم 
تطويرها وأداؤها بشكل جيد في التدريب أو في عينة التقدير» على عينة مختلفة من 
بيانات حقيقية (عينة اختبار)» وتخبرنا دقة المطابقة (Goodness of Fit)‏ برأي الباحث 
في مدى تعميم النموذج على البيانات الجديدة. وفي حالة التنقيب في البيانات» لا 
يتم التعميم من عينة إلى ساكن» وإنما من عينة عشوائية إلى عينة عشوائية أخرى (أي 
هن العدويت إلى Glee VI ane‏ 

ثمة متغيرات عديدة للصلاحية المتبادلة» إذ تعرف أبسطها باسم الطريقة 
المستبعدة CHoldout Method)‏ ومناسبة بشكل مثالي لتحليل بيانات ضخمة ذات 
ترصدات متعددة. phi g‏ مجموعة بيانات ما بشكل عشوائي إلى عينتين فرعيتين أو 
ثلاثة (عينات التدريب» والموالفة» والاختبار)؛ فتستبعد عينة الاختبار» ولا تستعمل 
في تدريب النموذج التنبؤي. وإذا كانت مجموعة البيانات الأصلية كبيرة جدأء فإن 
هذا التقسيم العشوائي للعينة الأصلية إلى قسمين أو ثلاثة أقسام, لا يؤدي إلى إشكالية 
فقدان القوة الإحصائية عند تقدير النماذج التنبؤية. ستثرك OVE‏ كثيرة في عينات 
dc al Gul‏ ا Gal‏ الطريقة المسكعدة )سد كز صت lo‏ حا 
hte‏ إما إلى عينات التدريب الفرعيةء أو عينات الموالفة الفرعية» أو عينات 
الاختبار الفرعية. وعليه» فإن كل عينة فرعية تضم حالات أو ترصدات منفصلة على 
نحو كامل. 
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ومع ذلك» فالصلاحية المتبادلة» لا تحتاج إلى مجموعة بيانات كبيرة» بل يشتغل 
نوع مختلف من أنواع الصلاحية المتبادلة» المعروفة بالصلاحية المتبادلة ذات 
الطية-ك (K-Fold)‏ على مجموعة بيانات صغيرة وكبيرة. ويبدأ الإجراء بخلق عدد 
مختار (k)‏ من عينات فرعية عشوائية» بحيث يتم في الغالب اختيار 10. وتسحب 
الحالات أو الترصدات عشوائياً من العينة الأصلية» فتسند إلى كل عينة فرعية» إلى أن 
يصير لواحد منهاء عدد k‏ المختار عشوائياً من العينات الفرعية في جميع الحالات. 
وتضم كل حالة عددا واحدا k‏ من العينة الأصلية. 

وستعمل إحدى تلك العينات الفرعية luk‏ باعتبارها مجموعة بيانات اختبارء 
في حين يتم تجميع العينات الفرعية الأخرى 1- لتشكيل مجموعة تدريب. ويقَدَرٌ 
على العينة الفرعية ذات مجموعة اختبار واحد؛ فتنتج إحصائية تطابقية أو قياس خطأ. 


l‏ وهكذاء يتكرر هذا الإجراء عدداً من المرات k‏ في جميع الحالات» بحيث تقوم 
Ea SE NE Ea E‏ 
المعشة المخدلظة يانات العدريت User lols‏ التطانق Gls Sasa‏ ال رجات 
هى معدل إحصائيات التطابق بالنسبة إلى عينات الاختبار عبر JF‏ عمليات k‏ 


ومهما يكن شكل الصلاحية المتبادلة المنتقاة (وهناك متغيرات إضافية)» فإن 
النقطة الحاسمة التي ينبغي تذكرهاء هو أنه عندما يتم تقييم الدقة التنبؤية لنموذج ماء 
يجن :دائما النظر إلى إحضائيات التطابق من أجل العينة المستبعدة LI dye gf‏ 
وتنقل بعض البرمجيات» إحصائيات التطابق بالنسبة إلى عينة التدريب أيضاء ولكن 
تفن اخضائة العظارق للف اللسشعدة أو dead‏ الاخدارالتحضائة المهية R‏ 

ولفهم سبب اعتماد مختصي التنقيب في البيانات فقط على إحصائيات التطابق 
بالنسبة إلى he Was‏ ينبغي التحول إلى ظاهرة مهمة أخرى» تعرف باسم التدريب 
المفرط (Overfitting)‏ 

التدريب المفرط 

إن للتنقيب فى البيانات نقاط ضعف خاصة بهاء وما التدريب المفرط إلا واحد 
منها. وتعد بعض تطبيقات التنقيب فى البيانات ناجعة lam‏ ف oly‏ نموذج تنبڙي» 
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ومفصلاً Lily‏ (انظر الشكل رقم 1.3). 
خط مستقيم» يمثل القيمة التنبؤية ل ۷ لقيم متنوعة من قيم X‏ وتمثل المسافة 
العمودية من كل نقطة بيانات إلى الخط المستقيم» خطأ التقدير بالنسبة إلى كل نقطة 
بيانات في ذلك النموذج البسيطء أي الفرق بين القيمة المتنبّأة ل لا والقيمة المرصودة 
YI‏ بالسية إلى كل XK ed ye bed‏ 

وقد يقلص نموذج من النماذج الأكثر تعقيداً للغاية مقدار خطأ التنبؤ. ويمثل 
الخط المتموج (Wavy Line)‏ معادلة من قبيل ...11+ .Y=at+bX+cX,+dX,+eX‏ 
وكما يمكنكم رصد ذلك في المخطط, إن هذا الخط الأكثر تعقيداء يمر بشكل 
مستقيم عبر كل نقاط البيانات» مما يدل ضمناً على انعدام وجود أي خطأ تنبؤي ما. 


15 


Ay 


. 9 


الشكل رقم 1.3: بيانات التدريب المفرط. 
ما العيب في اختيار نموذج أكثر تعقيداً إذا كان ذلك يعمل على تقليص الخطأء 
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وينتج تنبؤاً أقوى؟ وقد يحذر مختصو التنقيب في البيانات من أن بعض المسافة التي 
تفصل كل نقطة بيانات الخط المستقيم» قد ترجع احتمالآء إلى خطأ القياسء أي إلى 
الضجيج (Noise)‏ وباستخدامنا نموذجا معقدا بشكل كبير - مثل الخط المتموج - 
لمواءمة نقاط تلك البيانات بشكل دقيقء لا نعنى فقط مواءمة الإشارة (Signal)‏ 
وإنما Laf‏ مواءمة الضجيج. إن النموذج ا المعقد في اصطلاح التنقيب في 
البيانات» يعد بيانات تدريب مفرطة. والتدريب المفرط أمر غير مرغوب OY cad‏ 
ذلك يعني أن النموذج المعقد لن يعمل بشكل ممتاز ما إن Geb‏ على بيانات أخرىء 
مثل بيانات الاختبار. لقد فصل النموذج حسب بيانات التدريب المفعمة بالضجيج. 
ومن ثم لن توائم نتيجة ماء بيانات أخرى بشكل ممتاز. 

كيف يتسنى للمرء معرفة ما إذا كان نموذج أو معادلة ماء ذات تدريب مفرط أم 
عكس ذلك؟ عندما يطبق النموذج التنبؤي (عادة في شكل معادلة) المشتق من عينة 
تدريب معينة» على عينة اختبار منفصلة بشكل كامل» وتحتوي على ترصدات أو 
OVE‏ مختلفة» آنذاك يمكن للمرء مقارنة القيم المتنبّأة المحصل عليها انطلاقاً من 
النموذج» بالقيم المرصودة في مجموعة البيانات الجديدة» وتحديد مدى مواءمتها. 
وتقدم هذه الخطوة الثانية تقييما جديرا بالثقة لمدى صلاحية النموذج التنبؤي لبيانات 
ا fa‏ 

واسيتراجع) التدريب المفرط أو يخفق في المساعدة على 5.5 SLAY‏ أو 
البيانات المستبعدة لأن جزء من النموذج الذي وصف أنماط الحظ في بيانات 
التدريب (القسم ذو التدريب المفرط)» سيخفق في تنبؤ أي شيء مفيد في مجموعة 
البيانات الثانية أو مجموعة بيانات الاختبار. وسيكون هناك ضجيح عشوائي في عينة 
الاختبار العشوائي Lal‏ ولكن إذا كان الضجيج عشوائياًء فمن الطبيعي أن يكون 
الضجيج نفسه كما هو الحال في مجموعة البيانات الأولى. ومن ثمء لن يكون لها 
النمط نفسه» بل لن يكون لها أي نمط من الأنماط في واقع الأمر. 

عادة ما ستكون إحصائية تطابقية لنموذج ماء تم حسابه بالنسبة إلى عينة تدريب. 
أفضل من تطابق النموذج نفسه المطبق على عينة اختبار (ذلك Ob‏ بيانات الاختبار لن 
تكون ذات تدريب مفرط). وإذا ما وجد فرق كبير في إحصائية التطابق بين عينة 
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تدريب وعينة اختبار» فإن ذلك إشارة قوية على وجود تدريب مفرط فى الحالة 
الأولى وي الل ا Gill GIS‏ و So J Le‏ تريب EE cle‏ 
نفسه المطبّق على عينة اختبار ماء قريبين بما فيه الكفاية» OP‏ مؤدى ذلك انعدام وجود 
تدريب مفرط في الحالة الثانية: ومن ثم» فإن النموذج قادر على التعميم بشكل جيد. 

وكي نختم» يبدو أن استخدام التنقيب في البيانات للصلاحية المتبادلة» منهجية 
أكثر صرامة لتجنب الخطأ من النوع الأول (نتائج إيجابية كاذبة) من استراتيجية اختبار 
الدلالة المألوفة في البحث الاجتماعي التقليدي. يقيم المرء دقة نموذج من نماذج 
التنقيب في البيانات من خلال علم الإحصاء التطابقي المحصل عليها لفائدة اختبار 
مختار بشكل عشوائي أو لعينة مستبعدة» وهذا يوفر قياسا جديرا بالثقة لتعميم النتائح. 

ويقدم الشكل رقم 3 تصويراً مرئياً لإمكانية استخدام الصلاحية المتبادلة 
لتجنب التدريب المفرط. إن الربعين (Quadrants)‏ الموجودتين فى أعلى المخطط. 
فى تحال a EE‏ وانوي ER E Stee E‏ 
ea eee ame EEN oa‏ 
النموذج (الممثل بالخط) کل نقاط البيانات إلى حد بعيد» مما سينتج يو (ie toes‏ 
بالنسبة إلى بيانات التدريب. ومع ذلك» قيل لنا بشأن الربعية» إن الصلاحية المتبادلة 
(CV)‏ تخبرنا ob‏ هذا نموذجاً سيئاً OY due‏ الإحصائيات التطابقية كانت تتقلص 
تدريجياً بشكل كبير عندما يتم تطبيقها على بيانات الاختبار. وكان النموذج الأصلي 
ذا تدريب مفرط بكل تأكيد. 


وتشير الربيعتان أيضاً إلى مجموعة بيانات مستقلةء ولكنها مجموعة بيانات 
مختلفة انطلاقاً من النصف الأعلى للمخطط. وعلى الجانب الأيسرء تتم عملية 
مطابقة نموذج معقد من نماذج التنقيب في البيانات» ولكن قيل لنا إن إحصائيات 
التطابق للصلاحية المتبادلة لصالح هذا النموذج» هي تقريبا جيدة بالنسبة إلى عينة 
الاختبارء وعينة التدريب على حد سواء. وهكذاء يمكن أن نستخلص أن هذا نموذجا 
قابلاً للتعميم» على الرغم من كونه معقداً؛ وليس نموذجاً ذا تدريب مفرط. وللتنبيه 
فقطء فإننا نحاول La‏ أن نجرّب نموذجاً أكثر بساطة على البيانات نفسها. وتوضح 
ذلك الربيعية الموجودة في أسفل يمين المخطط. وبهذا النموذج الجديد. نجد أن 
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إحصائيات التطابق بالنسبة إلى عينة الاختبار» جيدة بالقدر نفسه بالنسبة إلى عينة 
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الشكل رقم 3 : الصلاحية المتبادلة 
(مأخو دة من : .(www.cs.cmu.edu/~schneide/tutS/node42.html#figcvo‏ 


يمكن استخلاص ثلاث دروس من هذه الرسوم التوضيحية: 
© البساطة في نموذج cle‏ ليست دائماً جيدة (على الرغم من Bale LÍ‏ ما 
نفضلها)؛ 


© التعقيد في نموذج ماء ليس دائماً دليلاً على التدريب المفرط؛ 


© الصلاحية المتبادلة إجراء موضوعي» يمنع المرء من تقبل النماذج داك 
التدريب المفرط. 
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التعزيز 

لقد قلنا إن التنقيب في البيانات يؤكد أهمية التنبؤ الدقيق» وهو - منهجية مع 
النموذج الأصلي التقليدي - أقل تقبلاً لنماذج قادرة فقط على تفسير نسبة صغيرة من 
التباين في متغير مستقل. ولأن التنبؤ المعزز Le‏ باعثاً قويا بالنسبة إلى المختصين في 
Kao‏ في البيانات» فإنهم طوروا تقنيات جديدة تعمل على تحسين التنبؤ. يبدو 
بعضها غريباً جدأ عندما ينظر إليه من منظور نمذجة العلوم الاجتماعية التقليدية. 
ولكن هذه الاستراتيجيات - كما سنبين ذلك لاحقاً - غالباً ما تتفوق على النماذج 
التقليدية عندما يتعلق الأمر بالتنبؤ. 

وما التعزيز (Boosting)‏ إلا أحد هذه الاستراتيجيات» إذ تتعامل مع إنتاج 
النموذج باعتباره سلسلة من الخطوات. وقد يبدأ المرء مثلاء بتقدير نموذج انحدار 
للتنبؤ بمتغير مستهدف مرصود Yo‏ وإن تطابق النموذج ليس مثالياء ومن ثم» فستكون 
لكل ترصّد قيمة متبقية أو خطأ تنبؤء أي الفرق بين القيمة المرصودة والمتنبّأة على Y‏ 
بالنسبة إلى كل حالةء أو Y-‏ 

وفى خطوة ثانية. e‏ نموذج تنبؤي آخر با : ستخدام طريقة نمذجة مختلفة. 
ولكن هذه المرة من خلال تنبؤ القيم المتبقية (Residuals)‏ انطلاقاً من النموذج 
متنبأة» ولكن تظل بعض أخطاء التنبؤ قائمة. ولذلك» يمكن للقيم المتبقية من هذا 
النموذج الثاني - بدوره - تنبؤها بواسطة نموذج ثالث» وهكذا بالنسبة للعديد من 

وأما الخطوة الأخيرة في تحليل معزز» فتتجلى في مزح معادلات التنبؤ المحصّل 
عليها من 5[ خطوة )1999 (Ridgeway‏ ويُنجز ذلك أحياناً من خلال توفير أوزان 
متناقصة لنماذج ناجحةء ومن ثم تجميع التنبؤات للحصول على تنبؤ وحيد أفضل YS‏ 
كتب ماتهياس شونلو (Matthias Schonlau)‏ )2005( برنامج (Stata (GLAS)‏ 
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Program)‏ المعروف باسم «زيادة» (Boost)‏ الذي pa‏ خوارزم تعزيز مألوف. 
وينقل أداؤه من خلال مثالين: انحدار خطي تقليدي وانحدار لوجيستي تدريجي؛ ففي 
السياق الأو ل» تنباً نموذج انحدار المربعات الصغرى التقليدية العادية 21.3/ من 
التباين (R?)‏ ف حين فسرت الات المتطابقة. والبيانات انحدار e‏ 
8 من التباين. أما بالنسبة إلى انحدار لوجيستي تدريجي» فقد صنف برنامج 
«الستاتا» التقليدي بشكل صحيح. 54.1 من الحالات بيانات الاختبار» ولكن 
التعزيز LS‏ بشكل صحيح ب 76.0/ من الحالات في عينة من عينات الاختبار. وهذه 
زيادات ضخمة في القوة التنبؤية بفضل التعزيز. 

وستَذكرٌ أن إحدى التفسيرات المألوفة المقدمة بشأن السبب وراء تفسير النماذج 
الإحصائية التقليدية (أي لا تعتمد التنقيب فى البيانات)» التى تفسر فى الغالب فقط 
نسبة صغيرة من التباين» تتجلى في حضور قياس الخطأ و/ أو في المفهوم الذي يفيد 
نرى هنا أن تقنية واحدة من تقنيات التنقيب في البيانات - التعزيز - يمكن أن ترفع 
نسبة التباين المفسرة بشكل كبير» مقارنة بنموذج تقليدي» مع استعمال - في الوقت 
نفسه - المتنبئات والبيانات نفسها بشكل دقيق باعتبارها النموذج التقليدي. وفي هذه 
الحالة» يعد الادّعاء ob‏ خطأ القياس والمتغيرات المحذوفة هي المسؤولة عن تقليص 
التباين المفسره ادّعاءٌ مجانباً للصواب. 

وثمة شىء عن الأداء التنبؤي بشكل واضح لهذه النماذج التقليدية التى تعد أقل 
UL‏ من منهجية التنقيب في البيانات. لقد كان التعزيز قادرا على إيجاد مزيد من البنية 
في البيانات» أكثر مما تستطيع المقاربة التقليدية القيام به. ولم يكن ذلك راجعاً إلى 
التدريب OV cb soll‏ هذه الإحصائيات التطابقية المثيرة ليست موجهة للعينة 
العشوائية الأصلية لبيانات التدريب التي أنتجت النموذج التنبؤي» وإنما لعينة بيانات 
اصطناعياً. وقمنا بإنجاز تحليل مماثل لمعرفة ما إن كان أداء التعزيز جيداً أيضاً مع 
بيانات العالم الحقيقي. ونقل انحدار مربعات صغرى تقليدية عادية في الجدول رقم 
3 أدناه. إذ يتم فيه تنبؤ لوغاريثم الدخل الشخصي من خلال متغيرات السوسيو 
الديموغرافية المتعددة. وذلك باستخدام بيانات مستقاأة من مسح المجتمع الأميركى. 
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الذي أعده مكتب تعداد السكان فى الولايات المتحدة الأميركية «(Census Bureau)‏ 


عام 2010. على الرغم من وجود عينة كبيرة. ومتنبئات عديدة» وجمع bly‏ ذات 
جودة عالية Lag‏ فإن التباين المفسر كما يمثله انحدار R?‏ هو فقط 29/. 


ee 


crs [ae | سد‎ | er 


<0.0001 


0.0021 


<.0001 0.0037 
<.0001 0.0135 


<.0001 


<0.0001 


متزوح» زوج حاضر) 


الله ل ا ال 
مراك محص Zoi. | 600 | Gong. | er‏ 
بالولادة) 
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<.0001 0.0070 -0.1833 














وسط الشمال الشرقي 4 | 0001.> 
وسط الشمال الغربي 0.0047 | 0001.< 
وسط الجنوبي الشرقي 0.0047 | 0001.< 
وسط الجنوب الغربي 8 | 0.1820 
Sa‏ بم | [om‏ م 
الأطلسى الجنوبى) 


ملاحظة: ترصدات 1,226,925 = N‏ ثابتة = 8.077؛ 0.2882 R=‏ . 

وفي الجدول رقم 2.3» يقارن هذا النموذج GALES‏ بنماذج متعددة للتنقيب في 
Ub‏ ال استعملة lL‏ ذاتها :إن السطر الأول يكرر R‏ بالسية AY‏ 
المربعات الصغرى التقليدية العادية أعلاه» في حين تنقل الأسطر الأخرى إحصائيات 
R?‏ بالنسبة إلى أربعة نماذج مختلفة من نماذج التنقيب في البيانات» مستخدمة البيانات 
والمتغيرات المتطابقة: by‏ كل خالة: تفسر مقارية التتقيت فى البياناكت Jie,‏ 
معتبر مزيداً من التباين أكثر من الانحدار التقليدي: إن لها قوة تنبؤية أفضل بكثير 
(على الرغم من أننا لم نشهد تحسنا كبير مقارنة مع مثال شونلو). وتستخدم هذه 
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النتائج بيانات حقيقية» لكن يتم عرضها هنا فقط من أجل أغراض توضيحية. وإذا ما 
كنا قد Lesh)‏ تعديلات نهائية» إلى نماذج التنقيب في البيانات بدرجة أكثر» من خلال 
تطويع معلمات متنوعة» ولأمكن لنا زيادة 17 أبعد من ذلك. 


الجدول رقم 3 أداء انحدار المربعات العادية الصغرى المعيارية. 
مقابل نماذج التنقيب في البيانات. 


فى البو 


المربعات العادية الصغرى 
شجرة التقسيم 
غابة نظام تمهيدي لتشغيل الحاسوب 
الشجرة المعززة 
الشبكة العصمية 





معايرة 

المعايرة الاستراتيجية الأخرى من استراتيجيات التنقيب في البيانات لتحسين 
تنبؤ النموذج الذي انحرف أيضاً عن الممارسات التقليدية. وإن إحدى الافتراضات 
الإحصائية الكامنة وراء نمذجة الانحدار التقليدي هو كون - وعبر الطيف الترددي 
لقيم المتغير التابع لا - التقدير الأفضل YS‏ يعد دائماً التنبؤ (الذي يُدعى لآ أو Y-‏ 
قبعة) المقدم من قبل معادلة الانحدار. ونتيجة لذلك» يجب أن يكون خط (Plot)‏ 
القيم المتنبأة ل لا مقابل قيم لا المرصودةء خطأ مستقيماً. وإذا كان الأمر كذلك. 
فسيعد النموذجء نموذجا (Calibrated) | ples‏ 


ولسوء الحظء إن تحليلات بيانات العالم الحقيقي» سواء تعلق الأمر بخط ما أو 
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رسم بياني للعلاقة بين لا ولآ» هي في الغالب» علاقة خطية عبر كثير من مجموع قيم 
۷ء لكنها تنحرف عن خط مستقيم إما في قيم عالية أو منخفضة ل Y‏ أو فيهما معا. 
ومن ثم» فإن الخط ينحني. وفي هذه الحالةء يُعد نموذج الانحدار نموذجا غير معاير 
(Uncalibrated)‏ بحيث لا يتنبا النموذج بدقة في القيم القصوى للا كما تفعل في 
المدى المتوسط. وفي المقاربة التقليدية» يحاول باحث cle‏ تحديد متغيرات تنتح هذا 
النمط المنحني» وإضافة آخرين إلى نموذج الانحدار» آملين أن يتسبب ذلك في 
اختفاء الانحناء (Curvature)‏ 


يستخدم التنقيب في البيانات أحيانأء منهجية مختلفة. إذا كان نموذج ما غير 
sea‏ متعدد الحد و > (Polynomial)‏ مع (Y= Y+ Y Y34...)Y‏ أو دالة أخرى 
ناعمة مثل دالة الخدة (Spline)‏ ولا يضيف هذا الإجراء أي شيء إلى الفهم 
الموضوعي للعلاقة بين المتنبئات المتنوعة والمتغير التابع» لأن الباحث لم يكتشف 
سبب حضور المنحنى. ومع ذلك» حسن هذا el > VI‏ 435 تنبؤ Y‏ وطور مواءمة 
النموذج. 

ويقدم الجدول رقم 3.3 توضيحاً لتأثيرات المعايرة في التباين المفسرء وذلك 
باستخدام نموذج انحدار المربعات الصغرى» وتنبؤ لوغاريثم الأرباح (Log of‏ 
Earnings)‏ بحيث تشمل المتتكات: العمر. و نربيع العمر. والتحصيل العلمى Da)‏ 
مجموعة من متغيرات «(Dummy Variables) isas‏ والمنطقة» والجنس. 
وساعات العمل وأسابيع العمل. مرة ار إن البيانات مأخوذة من مسح المجتمع 
eo‏ لعام 40 . وإن إضافة الحدود ¥2 Ya‏ و في معادلة lias Y|‏ يرفع 
من التباين المفسر من 0.52 إلى 0.59 مبيناً أن المعايرة يمكن أن تنتج تحسناً في 
الدقة التنبؤية. 

إن yp pel‏ والمعايرة هما اسثراتيجيتان مالو فان فى التنقيت فى soll‏ يحي 
يوضح كلاهما التركيز القوي الذي يضعه التنقيب في البيانات على تحسين التنبؤ 
laa ies‏ فا ديااو Pine EE E‏ 
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الحدول رقم 3.3: تأثير المعايرة في تناسب النموذج. 
R2‏ 


خطأ جذر متوسط 
المربعات 
(RMSE)‏ 
نموذج انحدار المربعات العادية الصغرى الأساسي 5237 2.28 
المذكور أعلاه + حد تربيعي: ۳ 5929. 2.11 
المذكور أعلاه + do‏ تكعيبي: 7 5939 2.11 
المذكور أعلاه + dm‏ رباعي: ۴ 5949 2.11 


تناسب القياس: مصفوفة الارتباك ومنحنيات جهاز 

يستحدم مختصو علماء القت E‏ البيانات مصطلح تناسب (fit)‏ للإشارة | 
دقة نموذج تنبؤي» وتحديداً إلى مدى قرب قيم تنبؤية لمتغير هدف أو متغير تابع من 
قيم مرصودة لذلك المتغير. وإن القياس الأبسط للتناسب بالنسبة إلى نموذج تنبؤي 
ا 
لتقييم التناسب» مصفوفة ار oll Cino id‏ هی مجرد جدو re‏ 
ثنائي. كما أن مصفوفة الارتباك تخبرنا بمدی دقة أداء النموذج التنبؤي الذي شكلناه 
في تصنيف الحالات. إنه يقارن النتيجة التي يتم تنبؤها (نعم/ CY‏ بالنتيجة المرصودة 
أو الحقيقية (نعم/ لا). 

وتوجد في مصفوفة ارتباك حقيقيةء أعداد في الخانات الأربع؛ إذ مثلنا - في 


المثال المعروض في الجدول رقم 3 الأعداد من «Nye N,, oN, ¢ Nik?‏ فقط من 
أجل الإشارة إلى خانات محددة. ولاحظ ما يلى فى علاقته بهذا الجدول 
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الأمرء زائد تلك الحالات التي تم تنبؤها إيجابأء ثم رصدت إيجاباً. LI‏ 
بالنسبة لنموذج دقيق» فإن معظم حالاته يجب أن تظهر بشكل مثالي على 
الخط المائل. 

Ll ©‏ نسبة الترصدات المصنفة بشكل صحيح بواسطة النموذج» فهي: 
nt n; E n,,) /(n,, 57 n,,)‏ > ). 

© لكن فى المقابل» تنقل المنشورات بشكل مألوف تصنيفا Lle‏ لمعدل الخطأء 
An, 0 n,,) /(n,, TNF Po, F n,,) IPI‏ 

© وتنقل بعض المقالاات قياساً يدعى الحساسية (Sensitivity)‏ ويعرّف ب 
Nl,» /(n,,+ n,,)‏ 

© وتنقل بعض المقالات Lal‏ قياساًيُعرف باسم الخصوصية (Specificity)‏ 
وتُعرّف “Dh, /(n,,+ n,,)~‏ 

© ويُعرّف معدل إيجابي كاذب بنسبة الصور الإيجابية المتنبّة التي كانت في 
الحقيقة سلبية: (ريط /(n,,+‏ ,, 

© يعرف معدل سلبى كاذب بنسبة الصور السلبية المتنبأة التى كانت فى الحقيقة 
إيجا بية : i /(n,,+ n)‏ 

وفي جميع الحالات التنبؤية» هناك مبادلة (Trade—Off)‏ لا مفر منها في التنبؤ 


والخصوصية. وإن عملية تقليص المعدل الإيجابى الكاذب سيزيد بالضرورة 
من عدد المعدلات الإيجابية الكاذبة. وفى المقابل» إن تجنب المعدلاات 
الإيجابية الكاذبة يعني أن نسبة المعدلات السلبية الكاذبة سترتفع. 
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الجدول رقم 4.3: مصفوفة ارتباك. 
المتخضلة المتناة 
سلبي (0) إيجابي (1) 
المحصلة الحقيقية سلبية )0( n n‏ 
إيجابية )1( n n‏ 


استخدام مصفوفة ارتباك من أجل قرارات التصنيف 


يمكن لنموذج انحدار لوجيستي ذي متغير تابع صفر/ واحدء أن ينقل بالنسبة 
إلى كل ترضد أو حالة فى مجموعة البيانات» الاحتمال Y= 1 Bed‏ وستأخذ تلك 
الاحتمالات المتنبّأة مجموعة مستمرة من القيم من صفر إلى واحد. ولكن أين يتعين 
على باحث ما تعيين احتمال «الشريط» أو العتبة» بحيث يفترض أن يكون فوق هذه 
العتبة ترصداً بقيمة 1 = لا في حين يُتوقع أن يكون تحت هذه العتبة» ترصداً بقيمة 
0= Y؟‏ 


ففي ببرمجيات إحصائية» dole‏ ما يتم تعيين الشريط في 5 - م. ولهذاء cle,‏ 
برنامج انحدار اوج IS‏ لات اعمال ا 5 أو أكدر مه ذلك Label‏ 
تنبؤات بقيمة 1 = لاء كما يعالج كل الترصدات باحتمالات تقل عن 5.باعتبارها 
تنبؤات بقيمة 0 = ۷ . 


ومع ذلك لا يصح للمرء أن يفترض - بالنسبة إلى معظم قرارات SS‏ الحقيقي 
- أن تكون قيمة 5. باعتبارها سقفاًء القيمة الأفضل للتنبؤء لأنه في الغالب هناك عدم 
التناسق ما بين «تكلفة» التنبؤات الإيجابية الكاذبة وبين تكاليف التنبّات السلبية 
الكاذبة. وقد يكلفك تنبؤ إيجابي كاذب أكثر بكثير من تنبؤ سلبي كاذب أو العكس 
بالعكس» ويجب أن يشعر ذلك نقطة اتخاذ قرارك. 


Lb aS‏ ترق يسن لك OL all SST det stad‏ الى تعن الاحتمال الما 
المحصل عليه من نموذجك حيث تصنف حالة ما باعتبارها 1 -/ا؟ وهذا مثل Joly‏ 
من أمثلة المنطق يتم استخدامه. ولنأخذ حالة بنكية حيث ضرورة اتخاذ قرار بشأن 


8] 


تقديم أو عدم تقديم قرض بملغ $5,000 (الجدول رقم 5.3). لقد تم تشكيل النموذج 
للتنبؤ بما إن كان شخص ما سيفي بالتزاماته (أي لا يرجع المبلغ الذي اقترضه). 
وفائه بتعهداته» فيدفع ما عليه من قروض. 
الجدول رقم 5.3: إضافة اعتبارات التكلفة/ المنفعة إلى مصفوفة الارتباك. 
القرار (التنبؤ انطلاقاً من النموذج) 
سحب القرض. الخوف من عدم الوفاء بالتعهدات 
تقديم القرض 
ركم الوفاء بالتعهدات $0 $5,000- 
1-P,‏ عدم الوفاء بالتعهدات $200 - $200+ 


وفى LE IS‏ ترص SG‏ القران ye pate‏ كل Hares‏ ولا بد GE ye‏ 
هلك de gleal‏ من قا رمو وج اران ginko) SLIT Sle Sle E‏ الى 
يشتغل ضمنه النموذج؛ فإذا ما أشار نموذجك التنبؤي إلى عدم وفاء طالب قرض ما 
بالتزاماته» ومن ثم حجبك القرض عنه» فلن تخسر أي شيء؛ وهكذاء سيكتب 50 في 
Jel‏ يسار الخانة داخل الجدول. وإذا تنبا نموذجك بوفاء الشخص بتعهداته» ومنحته 
de Le J‏ هذا coll‏ ولكته ف Jott blend! SUG‏ ارامات ف dad‏ 
0- التي اقترضتهاء ومن ئې فستكتب 85,000- في أعلى يمين الخانة. وإذا ما 
تنباً نموذجك بعدم وفاء الشخص المقترض بالتزاماته» ورفضت منحه القرض في 
وقت يمكن لهم مع ذلك» تسديد قرضهم» فستفوت على نفسك فرصة ربح فائدة 
تقدر ب 5200 (وستكتب -8200» في أسفل يسار الخانة). وأخيراًء إذا تنبأ النموذج 
بعدم وفاء الشخص بالتزاماته» ومع ذلك منحته القرض» فستحقق ربح فائدة تقدر ب 
0 (أسفل يمين الخانة). 

O(P,,) - 200 )1- P,) - 5000 (P,) + 200 (I- P) إن القيمة المتنبأة هي:‎ 

ومن ثم» تكون نقطة القرار حيث كانت المحصلة التالية: 


-200 (رم-1)‎ = -5000 (P) + 200 (1 -P,) 
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وإذا ما أعدنا ترتيب هذه المعادلة وحلهاء فسنحصل على: 0.74-,2. وتكون 
تقطة القرار المربحة هي م منح القرض. (توقع عدم وفاء الشخص بالتزاماته) بالنسبة 
إلى أي قيمة متنبأة 0.74 P=‏ أو أكبر من ذلك. لاحظ كيف يختلف هذا عن فكرة 
افتراض لزوم تصنيف أي احتمال يزيد عن 0.5 باعتباره VE]‏ بتعهدات» كما JES‏ 
ذلك مصفوفة الارتباك بالنسبة إلى معظم برمجيات الانحدار اللوجيستي. 


ولمزيد من الاطلاع على ضمّ اعتبارات التكلفة في نماذج التصنيف» انظر عمل 
.(Witten, Eibe, and Hall (2001, 163)‏ وعادة ما تكون إضافة اعتبارات التكلفة 
إلى مصفوفة الارتباك من أجل البت في النقطة الفاصلة» مباشرة عندما تكون للتكاليف 
والفقات ded‏ 448 ناشت 8 نوع e‏ رصحب ار Ghd‏ عن الاد برد 
قيم إيجابية كاذبة وقيم سلبية كاذبة أو بين الحساسية والخصوصية. بهذا الشكل. وإن 
البت في مكان وضع الحد الفاصل بالنسبة إلى اختبار صحة تشخيص جديد محفوف 
بالصعوبة» بما أن المرء مطالب بتحقيق التوازنات بين الاضطرابات التي تحدث 
عندما يقال ae‏ الخطيرة» وبين نتائج 
الإخفاق في تحديد تلك المشاكل عندما يكون قائما في حقيقة الأمر. 


منحنيات خاصية التشغيل المتلقي باعتبارها مقاييس مطابقة 


إن منحنى خاصية التشغيل المتلقي (Receiver Operating Characteristic‏ 
(ROC)‏ طريقة مرئية للبت في أفضل النماذج المستخدمة في تصنيف 
الحالاات. aaa‏ فى نانات دحوت وري امخض ودر | واحد أو نعم/ لاء كما 
يقدم فيها نموذج ماء احتمالاً متا من احتمالات «نعم) او 1 = dL Y‏ إلى کل 
حالة. (وعلى مستوى التنقيب في البيانات» تعد هذه lanes‏ ثنائياً (Binary‏ 
Classifier)‏ إن العديد من الاختبارات الطبية هي مصنفات ثنائية» EN Oke‏ 
منحنى خاصية التشغيل المتلقي» معدل الإيجابيات الصادقة (خصوصية) على 
المحور Y‏ مقابل الإيجابيات الكاذبة (1 - خصوصية) على محور ×. إنها تصف - 
إذن - التبادلية (تجارية) بين الإجابيات الصادقة (الربح)ء وبين الإيجابيات الكاذبة 
(التكلفة) - انظر الشكل رقم 3.3. 
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وفي هذا الشكل؛ يعد النموذج الممثل بخط (B‏ عموماً متفوقاً في التصنيف على 
ذلك الممثل بخط A‏ ولكن يمكن Lal‏ أن نرى أن لنموذج A‏ أداء تنبؤيا أفضل 
(Fawcett 2006)‏ حيثما كان المعدل الإيجابي الكاذب عال جداً (أكبر من 0.6). 


وإن منحنى خاصية التشغيل المتلقي» WE‏ ما يُستخدم لفهم دقة الاختبارات 
التشخيصية لمرض ماء مثل فحص الدم. وبالإضافة إلى الاحتمال المتنبأ بشأن 
إصابتهم بالمرضء المحصّل عليه انطلاقاً من فحص الدم» يحتاج المرء إلى معلومة 
موضوعية منفصلة تيت :ما إذا كان الشخض فعلاً مصابا بالحرض. ويدعى هذا الأخير 
ules)‏ الذهب» (Gold Standard)‏ في أذبيات „Lb‏ 
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الشكل رقم 3 : أمثلة من منحنيات خاصية التشغيل المتلقي )2006 (Fawcett‏ 


ويلي نموذج مثالي بشكل وثيق محور لا على الجانب الأيسر وبعدها يتحول 
بالموازاة إلى المحور X‏ ويقترب - قدر الإمكان - من hel‏ يسار ركن مخطط 
(cots‏ خاصية التشغيل المقاقي. Of‏ السا تحت هذا المتحنى فى Me‏ 1 
ويمكن أن يلي نموذج سيء cle‏ الخط ذا 45 درجة: وليس هذا أفضل من حظء أما 
المنطقة التي هي تحت هذا الخطء فتبلغ 0.5. وهذا الاختبار التشخيصيء لا يزودك 
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ولتلخيص هذا القسم» غالباً ما يشكل التنقيب في البيانات نماذج تنبؤية» ويريد 
المختص في التنقيب في البيانات طريقة من الطرق من أجل تقييم دقة نموذج معين. 


YUN‏ بطق المقتصى فى atl‏ فى Led yd SUL!‏ و الذي امس مر 
بيانات التدریب» على بيانات أخرى (حالات أو ترصدات أخرى) خصصت باعتبارها 
بيانات اختبار. ويستخدم عالم التنقيب في البيانات مصفوفة ارتباك أو منحنى خاصية 
التشغيل المتلقي لفهم دقة النموذج في تنبؤ هدف ما. ويتمثل واحد من القياسات 
المهمة للتطابق أو دقة التصنيف في نسبة الترصدات المصنفة بشكل صحيح (أو في 
المقابل» معدل الخطأ الشامل). ولكن الباحث غالبا ما يرغب فى تحديد المعدلات 
الإيجابية الكاذبة» والمعدلات السلبية AMS!‏ وفي بعض الأحيان يستخدم هذه 
المعلومةء إلى جانب بيانات التكلفة» للبت في خفض القيمة الأكثر ملاءمة 
واستخدامها مع Sle VI‏ الحا لدی تف الخالات. 

تحديد تفاعلات إحصائية وتأثير عدم التجانس في التنقيب في البيانات 

وتتجلى إحدى الرغبات الأساسية في نموذج الانحدار التقليدي» في تطبيق نمط 
الترابط أو الارتباط (Correlation)‏ نفسه على کل الترصدات في مجموعة بيانات ما. 
وعندما تحدث الحالة العكسية - أي عندما تضم مجموعة بيانات» مجموعات 
ترصدات ذات علاقة مختلفة جدا بين المتغيرات - يكون بإمكان نماذج الانحدار 
إنتاج معاملات مضللة ALU‏ ويعرف هذا - بشكل عامي - بمشكل «التفاح 
والبرتقال»» أو على نحو أكثر تقنية بالتأثيرات غير المتجانسة (Heterogeneous‏ 
Effects)‏ على سبيل المثال. إذا كانت العوامل التي Les‏ بنسبة التخرج بين طلبة 
كليات المجتمع» مختلفة للغاية عن العوامل المترابطة بالتخرج بالكليات الانتقائية 
ذات التكوين الممتد لأربع سنوات» فسيسفر تقدير نموذج إحصائي وحيد بالنسبة إلى 
مجموعة بيانات تضم النوعين من الطلبة معاء عن نتائج مضللة. 

إن المشكلة لا تكمن في وجود Ole yore‏ مختلفة داخل مجموعة بيانات؛ 
لكون استمرار هذا الأمر على هذا النحو بشكل دائم» وإنما المشكلة LET‏ عندما يكون 
لبعض المجموعات الفرعية أو لبعض fol OYE (Clusters)‏ مجموعة بيانات» 
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أنماط مختلفة جدا من الترابط بين متغيرات ماء أكثر من مجموعات أخرى. وتعرف 
إحدى الأمثلة المثيرة ب مفارقة سيمبسون «(Simpson’s Paradox)‏ (وأحيانا بمفارقة 
يول - سيمبسون «((Yule-Simpson’s Paradox)‏ أو مفارقة الإدماج. أو المفارقة 
العكسية )1972 (Blyth‏ وقد تظهر مجموعتان من الترصدات في مجموعة بيانات» 
علاقة إيجابية بين متغيرين» YIX‏ ولكن عند تحليل مجموعتين bes‏ في النموذج 
نفسه. فإن اتجاه العلاقة بين × ولا تعكس الاتجاه. وقد يبدو ارتباط × سلبيا Yo‏ 


ويوجد مثال في الجدول رقم 6.3 يقدم محصلات تجربة طبية مفترضة. تم 
جديدة تجريبية» ومنح آخرين المعالجة المعيارية. وتقارن الخانتان الأوليتان. 
محصلات المعالجة (deg poll‏ والمعالجة المعيارية للتجربة بشكل عام عبر 
الموقعين؛ فظهر بجلاء أن معدل البقاء على قيد الحياة كان أقل بكثير بين أولئك الذين 
يتلقون معالجة تجريبية. وإذا ما فحصنا هذين الخانتين بمفردهماء فسنخلص إلى أن 
المعالجة التجريبية أسوء بكثير من المعالجة المعيارية» ومن ثم» ضرورة التخلي عنها 
بالمرة. 


إجمالاً الموقع A‏ الموج 9 
معالجة معيارية 2 معالجة تجريبية معالجة معيارية 2 معالجة تجريبية معالجة معياربة 20 معالجةتجريبية 
الرقم الإجمالي 11,000 10,100 1,000 10,000 10,000 100 
عدد الموتى ‏ 5.950 9,005 950 9,000 5,000 5 
عدد الأحياء ‏ 5.050 1,095 50 1,000 5,000 95 
معدل البقاء 50/ 195 
على قيد الحياة 46/ 11/ 15 10/ i‏ / 


المصدر: 1972 Blyth,‏ 
ولكن» عندما ننتقل إلى فحص الخانات الأربع من ناحية اليمين» نجد في JS‏ 
موقع من هدين الموقعين الفرديين» أن معدل البقاء على قيد الحياة» كان اک pos‏ 
بين أولئك الذين يتلقون العلاج التجريبي. وتقترح هذه الملاحظة أن العلاج التجريبي 
أكثر فاعلية من العلاج المعياري. فكيف - إذن - السبيل إلى التوفيق بين هذا وبين 


86 





البيانات المجمّعة (Aggregated)‏ والجواب عن ذلك يكمن فى تدبير التقنية 
التجريبية - في أغلب الأحيان - في موقع ذي معدلات منخفضة من معدلات البقاء 
على قيد الحياة بالنسبة إلى المجموعتين معا؛ في حين كانت تدار التقنية المعيارية - 
على نحو غير متكافئ - في موقع ذي معدلات أكبر بكثير من معدلات البقاء على قيد 
الحياة. وعندما يتم مزج البيانات» تختفي النسبة العالية من معدلات البقاء على قيد 
الحياة المحصل عليها فى المجموعات التجريبية؛ أو بتعبير آخرء إن العلاقة السلبية 
المرصودة ذات المتغيرين بين تلقي العلاج التجريبيء واحتمالات البقاء على قيد 
الحياة» تتجه اتجاهاً عكسيأء عندما ES‏ الموقع الذي يتلقى فيه الشخص العلاج. 


وتوجد حالة أقل due‏ ولكنها أكثر شيوعأء تحدث عندما يبدو معامل انحدار 
مرصود بالنسبة إلى متنبئ من متنبئات × صغيراً أو عديم الدلالة إحصائياً. ويحدث 
هذا أحياناء بسبب ارتباط لابلا ارتباطاً قوياًء بالنسبة إلى مجموعة واحدة أو تجميع 
من الحالات داخل العينةء في حين قد تنعدم العلاقة» أو أي علاقة سلبية مع ¥ 
بالنسبة إلى مجموعة أخرى ذات المتنبئ X‏ نفسه. وإن استخراج متوسط هذين 
التأثيرين - كما يفعل الانحدار عند تحليل العينة بأكملها - يفضي إلى معامل صغير 
على نحو مضلل. 
وغالبا ما تكون مجموعات البيانات غير متجانسة على هذا التحوء غير أن الباحث 
لا يدرك dale‏ المجموعات Le all‏ أو تجميعات الحالات تسيا ومن ثمء تظل 
مشكلة «التفاح والبرتقال» مشكلة متوطنة. ونتيجة لذلك» تقتضي خطوة أولية في 
تحليل التنقيب فى البيانات» الرغبة فى تحديد المجموعات أو تجميعات الحالات. 
ف تسكن deol‏ ديول ye - HS‏ إزارة Uy‏ تنددلات dats‏ ولي إلى 
مجموعة متميزة على حدة. أو إضافة شروط تفاعل ELS‏ انحدارات مختلفة بالنسبة 
إلى کل مجموعة أو تجميع )2013 (Melamed, Breiger, and Schoon‏ 
ويمكن لتقنيات تجميع عديدة من تقنيات التنقيب في البيانات» تحديد تجميعات 
الترصدات ذات العلاقات غير المتجانسة بين متغير أو مزيد من متغيرات OX‏ وبين 
محصلة من محصلات ۷ . وقد طور روبرت هاراليك «(Robert Haralick)‏ وزملاؤه 
يقة ستل Ug d‏ تجميعا Late‏ خطيا و لا خطياً )2007 (Haralick and Harpaz‏ 
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(Decomposition) ما تجزؤ‎ el Se يقدم ميلاميد وبریغر» وشون»‎ LS 
القيمة المنفردة. ولسوء الحظء إن هذه التقنيات ليست متاحة لحد الساعة» فى أي‎ 
رزمة من رزمات برمجيات التنقيب فى الساتائف الا سات‎ 


ويستخدم حل ثالث أكثر سهولةء تقنية تعرف بانحدار الطبقة الكامنة (Latent‏ 
«Class Regression)‏ أو نماذج تجميع الطبقة الكامنة (Latent-—Class Cluster‏ 
Models)‏ وتم استخدام تعبير طبقة كامنة لعدم إمكانية تحديد المجموعات غير 
المتجانسة داخا مجموعة سانات» بو اسطة متغير مة احد (Single Measured‏ 

5 محر يسور‎ Ea ia d 
ترابط مختلف بين‎ ess الشباب‎ (Respondents) المبحوثون أو المستطلعون‎ 
المتغيرات» هى‎ oda ما دام أن‎ i ete المتغيرات» فبإمكان تحديد ذلك بشكل سهل‎ 
متغيرات مرصودة واحدة). وعندما يتم تحديد المجموعات الفرعية في البيانات‎ 
مختلفة على متغير غير‎ Ld بطرق أكثر تعقيداء نتصور أن للمجموعات الفرعية‎ 
مرصود (ومن ثم» فهو «كامن»). فكيف يحدد المرء - إذن = هذه المجموعات‎ 
الفرعية؟‎ 

تقدم الابتكارات الإحصائية «(Statistical Innovations)‏ رزمة برمجيات» 
تدعى «الذهب» الكامن (Latent GOLD)‏ التي تنجز هذا النوع من التحليل على 
.(statisticalinnovations.com/products/latentgold.html/‏ 

WE,‏ ما يدعى هذا الموضوع بين علماء الإحصاء بنمذجة المزيج المنتهية 
«(Finite Mixture Modeling)‏ كما حدث فى العقد الأخير e‏ وهناك تقدم كبير في 
تطوير هذه التقنية. وكتب )2009 LES «(Collins and Lanza‏ مفيداً حول الأفكار 
الإحصائية التى تحملها هذه الطريقة. 

وبعل تحليك التجميعات المتميزة أو مجموعات الترهدات داخل مجموعة 
بيانات ماء قد يقرر باحث من الباحثين تحليل كل التجميعات في نماذج منفصلة. 
ويمكن للتجميعات - Vu‏ من ذلك - أن تمثل بواسطة متغير اعتباري (Nominal‏ 
Variable)‏ « ومصطلحات جديدة تنضاف إلى النموذج الذي يمثل تفاعلات بين 
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متنبئات تجميع. وبين متنبئات خاصة. كما يمكن لنموذج واحد» المؤلف من هذه 
of dele! olde‏ بحست I‏ دعن OLE lee‏ المحموفانف غير 
المتجانية. 

غابات تعبوية وعشوائية 

عادة ما تكون النتيجة النهائية في النموذج الأصلي الإحصائي التقليديء انحدارا 
وحيداً أو las bed gai‏ يلخص العلاقات في مجموعة بيانات ما. قد يمرّ ذلك 
النموذج عبر سلسلة من التحسينات والتعديلات» ولكن في alei‏ يمثل نموذج 
بمفرده أفضل ما يمكن لباحث من الباحثين الإتيان به. 

وفي المقابلء يتبّع - في الغالب - تحليل من تحليلات التنقيب في البيانات: 
منطقا مختلفاء مولدين العديد من النماذج التنبؤية المختلفة» ومزج نتائجها لتقديم 
أفضل تنبؤ ممكن» وهي عملية تعرف في مجال التنقيب في البيانات باسم تعليم طاقم 
منسجم الأجزاء .(Berk 2006) (Ensemble Learning)‏ وثمة استراتيجيات بديلة 
داخل التنقيب في البيانات لخلق هذه النماذج المتعددة ومزجهاء ومنها استراتيجية 
التعبئة» (وينبغي عدم خلطها بتوزيع الخانات (8101028))» التي تتعامل مع مجموعة 
بيانات كما لو كانت ساكنة» وليست عينة. إنها تستمد عينات عشوائية متعددة مع 
استبدال (With Replacement)‏ من مجموعة البیانات. ويناسب تطبيق التنقيب في 
البيانات» نموذجاً لكل عينة عشوائية من تلك العينات» وانطلاقاً من ذلك النموذج. 
تيت Wet‏ فاه لمتغير النتيجة (Outcome Variable)‏ بالنسبة إلى is‏ حالة أو 
ترصد. ويمكن إيجاد تنبؤات مأخوذة من تلك النماذج المختلفة» بغية تحقيق أفضل 
تنبؤ ممكن» إما لمجموعة البيانات aber!‏ أو للترصدات الجديدة المستخلصة 
alice‏ 

وثمة مقاربة ذات الصلة. تعرف باسم الغابات العشوائية «(Random Forests)‏ 
تستعمل لجمع نتائج أشجار قرار متعددة. وتتمثل الفكرة الرئيسة في توليد نماذج 
شجرة متعددة» وإيجاد معدل نتاتجها للحصول على أفضل تنبؤ» كما يتجلى المظهر 
الجديد للغابات العشوائية في فرض الباحث مجموعة فرعية مختلفة من التنبؤات. 
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النماذج المتعددة للحصول على أفضل تقدي 


إن الغابات التعبوية والعشوائية هى إجرءات اختيارية داخل (JMP)‏ التى تنطق 
«(غامب برواء والعديد من مجموعات (Suites)‏ التنقيب فى البيانات التى نوقشت 
آنفا. سيتم تقديم أمثلة عنها في فصل لاحق. 

إن إحدى الأسباب الجوهرية لممارسة التنقيب في البيانات وفي تقييم نماذج 
متعددة» وإيجاد متوسطات نتائجهاء تكمن فى إمكانية أن يكون فی بعض الحالاات» 
بناء النموذج تابعا للمسار التي (Path‏ وفي أنواع متعددة من نماذج التنقيب 
في البيانات» تفحص خوارزمية ما كل سمة» لاستكشاف النموذج الذي يشكل التنبؤ 
الوحيد الأكثر قوة لهدف tle‏ فتحتفظ بالنموذج الأكثر قوة» وتعيد البحث في التنبؤات 
المتبقية» لانتقاء المتنبى الثاني من حيث القوة» وهكذا بالنسبة إلى العديد من 
التكرارات (Iterations)‏ إلى أن تنتقي مجموعة من السمات أو المتغيرات التي تعظم 
بشكل جماعى. القوة الشاملة للنموذج. 

وهذه طريقة مستعملة على نطاق واسع. ومناسبة في اختيار المتغير أو السمةء 
على الرغم من أن لها شركاً محتملا الت م ده 
أو لك لإدخاله E‏ النموذح؛ مما زاد من احتمال اختيار » بعض المتغيرات باعتباره 
الح ی کی ی کر ا 
متغيرا ما - باعتباره المتنبئ الثاني - المرتبط بشكل كبير بالمتغير الأول الذي اختارته» 
بما أن إضافة متنبى OU‏ وثيق الصلةء لن يحسّن القوة التنبؤية كثيرا. وبتعبير آخرء إن 
ated ghee‏ الأولت إل stow — Lede‏ :سيار من الفسارنات بالننسة إل الكرارات 
المتبقية للبرنامج» ومن تبعية المسار. 


وتقتضي تبعية المسار تجاهل بعض المتنبئات القيمة أو إزالتها في أي نموذج من 
النماذج. وبهذاء سيكون من المنطقي تقييم العديد من النماذج المقيدة باختيار مات 
ا pag‏ ومن ثم تجنب إمكانية تجاهل بعص policed‏ وهذا Lo‏ تنجزه الغابات 


Pipers 
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ويضم منطق ذو صلةء إجراءات التنقيب في البيانات التي تشمل تقديرات 
تقريبية» تلتئم في حل أمثل. واستنادأ إلى موقع «التخمين» الأول» إن إحدى نقاط 
ضعف هذه الخوارزميةء يتجلى في إمكانية التئام هذا البرنامج أحيانأء في حل محلى 
أمثلء الذي لا يعد في حقيقة الأمرء الحل الأفضل إجمالياً. 


ويفهم هذا بيانياً (Graphically)‏ إذ إن في الشكل رقم 4.3 يمثل محور Y‏ قياس 
خطأ ماء ومن ثم» فالبرنامج يبحث عن حل يتميز بأدنى قيمة ممكنة على محور Y‏ 
كما يمثل محور eX‏ قيمة plas‏ ما تم تقديره. أما المنحنى» فيمثل المسار الذي يمكن 
لبرنامج ما اتباعه في البحث عن حل من الحلول» المتمثل في أفضل تقدير ل ×. وإذا 
كان التخمين أو التقدير الأول للبرنامج موجودأ على الجانب الأيسر من الرسم البياني 
أو المخطط (Diagram)‏ - عند قيمة منخفضة ل × - Ob‏ عملية By Ss‏ تختار JS‏ 
حل متعاقب منخفض انخفاضاً طفيفاً على محور Y‏ سيتبع الخط الأسفل إلى أن 
تصل إلى الحد الأدنى العام (Global Minimum)‏ أي أفضل جواب ممكن. ولن 
ei‏ ك الخط إلى الأعلن عنذما كحورل الخط gle dees we GY ila gene‏ مواضيلة 
البحث عن قيم منخفضة ل Y‏ والتوقف عند عجزها عن إيجاد قيمة أقل انخفاضاً. 
وتتوقف الخوارزمية عند القيم الأدنى ل ۷» أي الحد الآدنى العام» حيث تقدير × هو 
حوالي - 4. 


من التميخظطظ — pe ead die‏ هة ل × )1.5 T‏ مشج العيلنة الك رة اتجاعا 
منحدر (Down-Slope) í‏ نحو حد أدنى محلى OY, .(Local Minimum)‏ 
الخوارزمية دائماً ما تحاول تخفيض لاء فلن ترجع إلى الخلف في الجانب الأعلى 
«bs‏ بعل بلوغها أول نقطة منخفضة حوالى 3 X=‏ ومن نم Star‏ «الوادي» 
(Valley)‏ المقبل حيث إقامة الحد الأدنى العام. وتستقر بعدها في الحد الأدنى 
المحلي (حوالي (X=0.3‏ «معتقدة» las‏ في كون ذلك هو أفضل حلء أي تقدير × 
الذي يقلص ل إلى dol‏ الأدنى. 
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20 





f‏ و الحد الأدنى العام 


الشكل رقم 3 الحد العام والحد الادنى المحلي. 


وتتجلى إحدى السميات المضادة لهذا الشكل ذي الطرق المتكررة» فى تقدير 
نماذج مختلفة متعددة - بحيث يبدأ JS‏ واحد منها عند نقطة بداية مختلفة جداً 
(تخمين أو تقدير أولي) - وفي تجميع التنبؤات من كل هذه النماذج المختلفة لتحديد 
تنبؤ نهائي لشخص ما. ولن يمنع هذا الإجراء بعض الحلول من أن تكون مثالية فرعية 
(لأنها استقرت في حد أدنى محلي)» ولكنه يضمن وجود حظوظ أخرى عديدة لبلوغ 
الحل الحقيقي أو المثالي (الحد الأدنى العام)» وستكون هي المهيمنة. 

إن «غامب برو» (IMP Pro)‏ ورزمات برمجية أخرى من التنقيب في البيانات» 
تسأل المستخدم عن عدد نقاط البداية المستخدمة. وبعد AUS‏ تدير نماذج منفصلة. 
تيدأ عند نقاط بداية مختلفة للغايةء لضمان عدم الانخداع بحدود أدنى محلية. وتتمثل 
التكلفة - عادة - في ضرورة إدارة نماذج عديدة عوض نموذج oly‏ مما قد يستغرق 
bis‏ 25 | لمعالحة De pares‏ مانات هة 


ولتلخيص هذا القسم حول الغابات التعبوية والعشوائية» اكتشف الباحثون الذين 
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يشتغلون داخل النموذج الأصلي للتنقيب في البيانات» تحليل البيانات عدة مرات» 
مستخدمين عينات مختلفة LUG‏ أو مجموعات مختلفة من المتنبئات» أو نقاط بداية 
مختلفة. وكل تحليل فردي يقدم تقديراً ماء ويوجد التنبؤ الأكثر قوة ودقة. في مزج 
تلك التقديرات. ولاستخدام قياس ماء نقول إن قرار اللجنة هذاء ويزعم أن 
«التصويت)» أو إيجاد المعدل» أو في بعض الأحيان» مزج نماذج متعددة (معروفة 
أيضاً بتعليم طاقم منسجم الأجزاء)ء يقدم تنبؤأً أكثر دقة من الاعتماد على نموذج أو 
تحليل واحد. ومع ذلك يقوم تكرار تحليلات على هذا النحوء ومزج - بعد ذلك - 
نتائجه» على حواسيب فائقة السرعة. وواسعة. إذ لها القدرة على حساب نماذج عدة 
مرات» وهو شرط ضروري للعديد من طرق التنقيب في البيانات. 


محدودية التنبؤ 

نشر ممارسان بارزان في التنقيب في البيانات» أفضل الكتب مبيعاً حول محدودية 
هذا التنقيب في البيانات ely‏ نسيم aise‏ طالب «(Nassim Nicholas Taleb)‏ 
وهو محلل مالي» و منم ج إحصائي» يعد مؤلف The Black Swan LS‏ )2005( 
و Fooled by Randomness (2007) CLS‏ كما ألف نات سيلفر (Nate Silver)‏ 
وهو مطور برمجية تنبؤية فى «البيسبول»» ومحلل رائد فى استطلاعات الانتخابات 
(انظر 940 4 Five Thirty Eight‏ ل (New York Times‏ كتاب The Signal and‏ 
The Noise‏ )2012( 


ويقدم المؤلفان كلاهما نقاطاً تحذيرية» مثا 

#البسى لكل al bil‏ الطبيعية أو الاجتماعية Acs‏ أساسية» يمكن استكنافها: 
cle pace‏ كلما كانت نسبة الصوت فى الإشارة (Signal)‏ ازدادت نسبة 
تضليل الإفراط فى التدريب لمختصى التنقيب فى البيانات. وقد «ينخدعون 
الو ا رون ds Ogden gl cll‏ غير مو cys) Boge‏ أجل ذلك فان 
الصلاحية المتبادلة» والمضاعفة» مهمتان A‏ 

O‏ إن النظم الدينامية المترابطة جداء تتأثر بأسباب متعددة» بحيث يمكن إثارة 
بعضهاء حلقات تغذية dard‏ قادرة على إنتاج تحول غير متوقع على نطاق 
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(Does the Flap of a Butterfly’s Wings 1n Brazil Set Offa Tornado ©‏ 
Los cin Texas)‏ شهير» يتناول نظرية الفوضى «(Chaos Theory)‏ وهى 
نظرية تُعنى بالنظم اللا خطية التي Cad‏ إلى إدوارد لورينز (Edward‏ 
Lorenz)‏ وكما يقترح المجازء يمكن لتحول ما على نطاق صغير في مكان 
ماء إثارة نتائج على نطاق واسع جداً في مكان آخر. وقد يفهم من هذا 
المجازء استحالة EAS‏ النظم اللا خطية بنجاح على الإطلاق. وفي 
المقابل» يمكن تنبؤ النظم اللا خطية مثل الطقس في حدود معينة (حسبما 
يرى سيلفر (Silver)‏ » ولكن فقط ضمن إطار زمني قَبَيْل الحدث المتنباً. 
وإن التنبؤات التي تمت في وقت سابق من هذاء لن تكون دقيقة بشكل كامل. 
وبتعبير آخرء لا يستطيع المرء اقتفاء أثر أي إعصار حقيقي في رفرفة أجنحة 
الفراشة (أثر الفراشة). وبإمكان المرء تصور العلاقة» ولكنه يعجز عن نمذجة 
ذلك بالأمس البعيد. ومع AUS‏ يمكن تنبؤ الإعصار بشكل دقيق» انطلاقاً من 
أدلة يتم جمعها قبل بضعة أيام من حدوثها. 

o‏ وتظهر أنظمة طبيعية أخرى انتظامات (Regularities)‏ ولكنها بعيدة عن 
فهمنا التنبؤي الحالي. وإن توقيت الزلازل وشدتهاء مثل من الأمثلة التي 
يصفها سيلفر» إذ يمكننا تحديد بعض الأنماط حول حجم الزلزال» ولكن لا 
يمكننا التنبؤ - على نحو دقيق - بزمن حدوث الزلازل الكبيرة. إن النمط - 
ذا وخا راضلا سد الال 

© وتعد بعض الظواهر الاجتماعية غير مناسبة للتنبؤ» OV‏ الفاعلين المشاركين 
فيهاء يفحصون بيئتهم» ويردون على أية تلميحات من تلميحات التغييرء 
انطلاقاً من الوضع الراهن. وفي ظل تلك الظروف - وبمجرد إدراك تلميح 
من حركة - مثلاء أخذت أسعار الأسهم في الارتفاع أو الانخفاض - سيتوقع 
العديد من الناس أن السوق يحول اتجاهه. فينضمون إلى الفريق الرابح. وقد 
يصير - إذن - للحركة توجه نحو إشباع الذات (Self-Fulfilling‏ 
«Prophecy)‏ بما أن igs‏ من الناس تشتري الأسهم أو تبيعها. وفي هذه 
السياقات المتقلبة» يعد سلوك البارحة متنبى ضعيف لتصرّف الغدء بما أن 
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المشاركين قد يكسبون مالياً من توقع تغيير في الاتجاه. وفي هذا السياق. 
يمكن لعقلية القطيع تقويض التنبؤ. 

© وفي سياقات أخرى - مع ذلك - يمكن لآراء جماعة من المواطنين منافسة 
ترات ol god tol Sell‏ الاشخاض عو ل etl‏ م القضيايا» كتير be‏ يرق 
تقديرات معظم الأفراد. من أجل ذلك» غالبا ما تنجز «أسواق» المعلومات. 
حيث يراهن العديد من الأفراد على النتائج» ما Ley‏ به صناع القرار 
لوقل 
وروي جب و ute‏ ا واي 

إن أهم نقطتين حاسمتين لهذين المؤلفين - في رأبي - هما كالتالي: 

© يجب على أي تنبؤ أن يكون دوماً مصحوباً باحتمال أو فاصل الثقة التى تمثل 
الشك فى التنبؤ. 

ASE إن التتائج المستبعدة إحصائياً - وإن كان ذلك نادرا - تحدث بكل‎ SPR 
وستحدث حالة واحدة ذ فى المليون‎ Ag والتخطيط‎ col Lopes هك‎ LY 
بعبارة اليجعات‎ lam VI ا هذه‎ (Taleb) عند نقطة ما. ويشير طالب‎ 
ويتناول تأثيرها المدمر فى الناس الذين يتخذون‎ «(Black Swan) السوداء‎ 
وتكمن إحدى‎ Tia فرارات» مدعين عدم حدوث النتائح النادرة‎ 
المَهَرَّةِ كمياًء إلى التصرف كما لو أن الأحداث الأكثر احتمالاً هی فقط التى‎ 
dame ستحدث مستقبلا. وستنهار مشاريعهم (وثرواتهم) عندما تحدث‎ 
سوداء» وهو حدث مستبعد.‎ 


البيانات الضخمة ليست بالمرة ضخمة بما فيه الكفاية 


إن الصورة التي رسمناها عن er)‏ في البيانات» cre‏ مرج فوة ا 
القاسية (Brute Computing Power)‏ ومجموعات بيانات eee‏ تمكن 
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متخصصو التنقيب في البيانات من استكشاف البنيات في البيانات التي لم يتم 
الإفصاح عنهاء من خلال تطبيق المنهجيات الإحصائية التقليدية على مجموعات 
البيانات المؤلفة من عدد أصغر من الحالات. إننا ندعم هذا الطرح. غير أنه مهم أيضا 
الاعتراف بمفارقة تواجه متخصصى التنقيب فى البيانات باستمرار» وتشكل 
مشروعهم بأكمله؛ أي إنه حتى مجموعات بيانات العلوم الإنسانية الكبرى - Yee‏ 
خمسة ملايين Leaded‏ ملفات تعداد لعدة سنوات متاحة من مسح المجتمع الأميركي 
«(American Community Survey)‏ ليست كبيرة بما فيه الكفاية لتمكننا من بحث 
شامل وحصري في البنية» بل OL‏ الحواسيب الكبرى والفائقة السرعة نفسهاء تجد 
بعض المهام ا 

إن إحدى نتائج هذه المقارنة تتجلى في أن التقيب في البيانات» كثيراً ما يحتاج 
إلى وضع افتر اضات مبسطة كي تكون الحلول للمشاكل ممكنة» أو لانتقاء مجموعات 
فرعية من المتغيراتء OY‏ التنقيب في البيانات نفسه» لا يمكنه التعامل مع كل 
القياسات المتاحة في نموذج واحد. وإذا ما أخذنا بعين الاعتبار المعالجة الحسابية 
(Computing)‏ الضخمة» ومصادر البيانات المتاحة» فهل يحتاج - مع ذلك - 
التنقيب في البيانات إلى تسوية أو اختصار النفقات أو إيجاد طرق مبتكرة للتقدير بدلا 
عن قياس الأشياء على نحو مباشر وشامل؟ 

ويمكن لتجربة فكرة ما أن تبين مكمن الخطورة. تصور حالة من الحالات التي 
يكون لدينا فيهاء هدف ثنائي (نعم/ لا)» أو متغير تابع» وحددنا عبر عملية من عمليات 
البحث الاستكشافي أن أخذ 10 متغيرات أو سمات chae‏ يمنح تنبؤاً جيداً لهذا الهدف 
ذي ثنائية نعم/ لا. والآنء لنفرض Ya‏ أن كلاً من هذه المتنبئات العشر (10) تأخذ 
قيماً من 0 إلى 9. (ولنأخذ. te‏ متنبئات مستمرة مثل العمر أو الدخل» ونقسم JS‏ 
واحد منها إلى 10 خانات» محولين JS‏ منها إلى متغير عادي ذي 10 قيم ممكنة). 


وافتراضاًء يمكن للمرء تشكيل جدول مكون من صف (ROW)‏ لكل مزج ممكن 
لمتغيرات أو سمات التنبؤ ذي القيم العشرة. وكل حالة من هذه الحالات أو الترصدات 
فى مجموعة بيانات تدريب» يمكن حلهاء بحيث تنتهى فى نهاية المطاف فى العصر 
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الواحد الذي يمثل قيم تلك الحالات على 10 متنبئات. وبعدما يتم حل JS‏ بيانات 
التدريب على هذا النحوء فإنه يصير بالإمكان عد نسبة الأجوبة بنعم بالنسبة إلى ذاك 
السطر. 

يمكن استخدام هذا الجدول من بيانات التدريب» بعد ذلك» باعتباره نموذجاً 
تنبؤياً. وللتنبؤ بالهدف (نعم أو CY‏ بالنسبة إلى FF‏ حالة جديدة في عينة اختبار» ما 
على المرء إلا البحث في الجدول عن العمود الخاص الذي كان يوافق نمطا فردياً من 
المتغيرات الستقلة aL‏ إلى تلك الحالة التجديدة أو Whe) dada toe cl‏ 
ابحث عن السطر الخاص بالرجالء الذين تتراوح أعمارهم ما بين 670,65 وأدخلهم 
ما بين $80k,$75k‏ القاطنين في بريطانيا الجديدة إلى آخره. بالنسبة إلى 10 من 
متغيرات شخص ما. إن نسبة حالات «نعم» في ذلك العمود. ستقدم إذن الاحتمال 
Lod‏ «لنعم» لحالة جديدة خاصة في بيانات الاختبار» وهذه العملية من البحث 
يمكن إعادتها بالنسبة إلى JS‏ حالة في ملف البيانات الجديدة. 


لماذا لا يكون هذا النوع من استراتيجية تنبؤية تجريبية شاملةء عملياً مع البيانات 
‘(Measurement Space)‏ حجم الجدول الضروري لتمثيل a E‏ کات 
(Combinations)‏ للمتغيرات العشرة )10( بحيث يحتوي كل منها على 10 cod‏ 
وقد تكون !10 من حيث الحجم: عشرة مليارات عمود إجمالياً. ولنتأمل أيضاً قدر 
تالكر الور حت كن Ok)‏ ا ا ار bbe‏ بالنسية إلى 
كل عمود داخل الجدول الذي انطلاقنا منه» يمكن عد نسبة الأجوبة بنعم بالنسبة إلى 
بيانات جديدة. وقد يحتاج المرء إلى مجموعة بيانات تدريب بمقدار مائة مرة لعشرة 
مليارات حالة - تريليون حالة - لملء الجدول بما فيه الكفاية للسماح باستراتيجية 
إيجاد مجموعات بيانات ذات تريليون حالة. ولهذاء يعجز التنقيب فى البيانات عن 
التعامل مع استراتيجية قياس مباشرة وشاملة بالنسبة إلى مشكلة متخيلة لعشرة 
متغيرات» بحيث يملك JS‏ واحد منها 10 قيم. 
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إن ما تنوي هذه التجربة الفكرية الإفصاح عنه. هو أن التنقيب في البيانات يواجه 
جهة أخرىء إن للتنقيب في البيانات استراتيجيات عدة» تتجنب بنجاح هذه المشاكل. 
وتمكن طرق التنقيب في البيانات» تحليل البيانات ذات مئات المتغيرات بنجاح. 


ه أولا: يضع التنقيب في البيانات أهمية كبيرة على عملية تقليص عدد 
المتغيرات التي تدخل في إطار أي نموذج» وتشمل إحدى المقاربات» انتقاء 
السمة :(Feature Selection)‏ عملية الفحص عبر أعداد هائلة من المتغيرات 
لاستكشاف المجموعة الفرعية الصغيرة الأكثر قوة لتنبؤ هدف cle‏ وإبعاد 


ye 


الباقى. 
© وتشمل منهجية ثانية» تمزج بعض متغيرات التنبؤ إلى مؤشرات» ومقاييس› 
ومعاملات (Factors)‏ وهی عملية تدعى استخراج السمة (Feature‏ 


.Extraction) 


© أما المنهجية الثالثةء فتتجنب حيز قياس ضخم» من خلال إدراكها SL‏ حالات 
المزج الممكنة لقيم المتغيرات لن تكون ذات أهمية عمليا في المستقبل؛ إما 
لعدم وجود العديد من الحالات مع ذلك المزج الخاصء أو لأن المرء يمكن 
أن يحصل على تقديرات جيدة لتأثيرات المتغيرات الفردية دونما أخذ بعين 
الاعتبار JS‏ تفاعلاتها أو حالات مزجها الممكنة للقيم. 

© تقسيم البيانات (Data Partitioning)‏ (أو أشجار القرار) هو مثال من 
الأمثلة» وتبحث هذه الطرق عن التفاعلات الإحصائية بين المتغيرات» 
ولكنها لا تأخذ بعين الاعتبار بشكل شامل حيز القياس بأكمله مع ملايين 
تفاعلاتها أو خلاياها. إنها تشتغل - Lege‏ عن ذلك - على متغير واحد تلو 
الآخرء باختيار» في الأول» المتغير الوحيد الذي يقسم البيانات بشكل 
أفضل» على كل لاء ثم إيجاد - بشكل تكراري - متغيرات إضافية لتقسيم 


مزيدأً من البيانات. إن هذه التقنيات تجد - دون شك - تفاعلات ذات أهمية 
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م gall Gee‏ د a‏ فين خلال الد يمعي واخك تلو GeV‏ 
سيحددون. clay‏ مائة مزج مهم من قيم متغيرات (أو تفاعلات)» بدل 
مليارات. إن طرق الشجرة أو طرق التقسيم العودي» تنتقي مجموعة فرعية 
من المتنبئات والتفاعلات انطلاقاً من عدد أكبر من المتنيئات والتفاعلات 
الممكنة. 

© الشبكة العصبية تلعب النماذج دوراً مماثلاًء إذ يمكن أن تدمج تفاعلات 
معقدة بين متنبئات ما في نماذجهم التنبؤية على نحو آلي» من دون أن يكون 
لدى محلل البيانات حاجة إلى تحديد تلك التفاعلات الأخرى التي أتت في 
every‏ 


© وأخيراً تستفيد بعض الطرق من حقيقة إمكانية تقليص حيز قياس ضخم 
تقليصاً ale‏ إذا ما وضعنا افتراضاً مبسطاًء أي إن كل متغير يؤثر في متغير 
تابع» بمعزل عن JS‏ متغير آخرء أو - على نحو أكثر Bo‏ - إن المتنبئات 
titans‏ فق J gill da olay by pie god‏ ن MELE‏ كيين الات 
لا تهم. وتعد الطرق التي تلي هذا الافتراض المبسّط» بما في ذلك مصنف 
بايزن الساذج (Naive Bayesian Classifier)‏ (الذي سيتم مناقشته في 
فصل لاحق)» دقيقة إلى حد ما في بعض السياقات. 


ولنلخص فكرتنا بخصوص أن «البيانات الكبيرة» ليست كبيرة بما فيه الكفاية». 


لقد بدأنا بالإشارة إلى أن طرق الحضر في البيانات» يمكن - مبدئياً - أن تتبنى منهجية 
«شاملة» لاستكشاف بنية وتنبؤء من خلال - مثلاً - دراسة گل تفاعل ممكن بين 
المتنبئات» أو من خلال استعمال JS‏ متنبئ متاح. كما استخدمنا تجربة فكرة» لبيان 
عدم إمكانية استراتيجية شاملة في الغالب» باعتبارها OY Lhes Lal‏ عدد حالات 
المزج أو التفاعلات بين المتنبئات» تصبح كبيرة فلكي بل كبيرة جدأ إلى درجة عدم 
حيازة أي مجموعة» بيانات حالات كافية لتناول JS‏ حالات المزج. ولما واجهت 


طرق الاب 2 «AU obLI‏ افحتم شن استراتيجيات Cou‏ غير مستنزفة. 
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وهي لا تجرب عادة ككل الاحتمالات» على الرغم من أنها مازالت تجرب نماذج 
عديدة ممكنة. EET‏ يقلص التنقيب في البيانات p>‏ القياس أو ote‏ الاحتمالات 
المقدرة. وهذه ناجزة بطرق شتى: 
1. بواسطة اختيار ابتداء» مجموعة فرعية من متنبئات مهمة من قائمة أكبر - اختيار 
سمة. 
SHS 12‏ مزج متغيرات داخل مقاييس (Scales)‏ أو مركبات (Composites)‏ 
- استخراج سمة. 
3. من خلال أحياناء fabs‏ تفاعلات بين Ske‏ للحصول على تنبؤ أكثر 
بساطة» ولكنه مع ذلك أكثر دقة. 
4. من خلال البحث عن تجميعات لحالات مماثلة في البيانات» وتحليل كل 
تجمع أو مجموعة بشكل منفصل. 
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النصل (لرابع 
مراحل مهمة في مشروع 
التنقيب في البيانات 


Of gas Le |‏ قفتا انات اا الفا تل عا ءيق أشنا إلى oldest‏ 
التي تضعها بيانات عالية الأبعاد» يمكن OVI‏ مناقشة الكيفية التي يتم بها الشروع في 
تحليل التنقيب في البيانات بشكل إجمالي. هناك ستة خطوات منفصلة من حيث 
التصور: 

1 ليت في إمكانية معاينة البيانات» وكيفية التعامل مع هذه المعاينة قبل تحليلها؛ 

ely .2‏ متجمؤوعة غنية من السمات أو المتغيرات؟ 

3 "تيان dead!‏ وام اص الس 

4. تشكيل نموذج ما أو عملية تناسبية باستخدام قائمة أصغر من السمات على 
بيانات التدريب؟ 

5. التثبت من ذلك النموذج أو إقراره من خلال بيانات الاختبار؛ 

6. تجربة طرق بديلة للتنقيب في البيانات» وربما مزج العديد منها (طرق مجموعة). 
بغية استكشاف إمكانية تقديمها لحل أفضل. وفي هذا الفصلء نقدم مزيداً من 
التفصيل oles‏ الخطوات الأربع الأولى. 
متى تتم معاينة البيانات الضخمة؟ 
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يتجنب علماء التنقيب فى البيانات أحياناء تحليل مجموعة بيانات كبيرة برمتهاء 
Lage Oye 3‏ عرو tld‏ إلى te bla!‏ عكر Bye Hil‏ مو cigs OVE‏ 
والشروع في تحليلها. وتعزى إحدى أسباب القيام بذلك إلى كون الحاسوب السريع 
نفسه قد يعمل لساعات في تحليل ملايين الحالات» في حين إن التحليل المطابق 
الذي أجري على عينة عشوائية» ومن ثم عينة تمثيلية ل 20,000 حالة She‏ قد تكشف 
فقط عن الأنماط نفسها وتعمل بطريقة فائقة السرعة. وفى هذا المثال» تعد عملية 
معايئة البيانات الضخمةء مجرد طريقة من طرق تسريع التحليل» وتجنب إمكانية 
تحطم الحاسوب بسبب الذاكرة غير الكافية. (وقد تتمثل استراتيجية بديلة في إنجاز 
تحليل أولي باستخدام عينة عشوائية أصغر» وتحليل مجموعة البيانات برمتها في 
الآخرء بعدما يكون المرء قد بت في المتغيرات والنماذج القائمة على بيانات عينة 
أصغر ). 

ly le parce عة من‎ GUL oly ولف جدا من‎ OU Caw daly 
و لهذا‎ Lest sb أو الات‎ Glas! yes Lele ab کون‎ ble Oana cis 
ربما يريد محلل ما - مثلاً - اكتشاف المعاملات الاحتيالية من خلال تحديد نمط‎ 
مميز تشترك فيه تلك المعاملات. وقد تحتوي هذه القاعدة من البيانات لدى باحث‎ 
(dag ماء ملايين المعاملات الشرعية (مشفرة مثلا بشفرة 0 بالنسبة إلى المتغير‎ 
تحب‎ gee LUT الاأحفالية (مشفرة بشفرة 1) إلا‎ elec! cue ولك قن لا‎ 
للغاية من الاحتيال فى المعاملاات‎ (Lopsided) وبتعبير آخرء هناك نسبة غير متوازنة‎ 
l الشرعية» ولكن هذه «إبر في كومة قش»» مهمة جدا.‎ 


وإن بعض تقنيات النمذجة والتصنيف لا تشتغل بشكل جيد مع التوزيعات غير 
المتوازنة المطبقة على المتغير التابع. وإن نموذج انحدار لوجيستي ماء مثلاء الذي 
يواجه محصلات ذات تسع قيم صفر بالنسبة إلى كل محصلة ذات قيمة صفر» يمكن 
ce ol‏ ودا Ley‏ الا ae‏ يفك de ee‏ ولك على خاب ققد ان العدية 
Sees‏ النموذج العام - نسبياً - مناسباً جداً بتصنيفه 95 في المائة من الحالات 
بشكل صحيح» ولكن مع ذلك قد يسيء تصنيف نصف حالات المعاملات الاحتيالية. 


ولتجنب هذا النوع من المشاكل» من الأفضل - عندما يتم التركيز على محصلات 


102 


نادرة نسبياً - ضمّ كل الحالات Ste)‏ الاحتيال) النادرة» واستنباط عينة عشوائياء من 
النوع الآخر من الحالات الوافرة» للحصول على معدل قريب من 1:1 لهذين النوعين 
فى مجموعة البيانات الجديدة. إن تقنيات التنقيب في البيانات ستقوم بتنبؤ أو تصنيف 
baal‏ كن بالظر إلى و جرف هذه المسفوعة هن LL‏ المتؤاؤنة تسيا مقارنة 
بإمكانية تطبيقها على عينة غير متوازنة للغاية. إن المعاينة قبل التحليل» أمر ضروري 
فى هذا النوع من السياق. 

ما من خلال تشكيل متغيرات جديدة» حتى لو سبق أن كان لمجموعة بياناتهم متغيرات 
أو سمات عديدة. في الواقع» يقضي بعض علماء التنقيب في البيانات وقتاً أكثر في 
LES Aa‏ مجموعة غنية من السمات» مقارنة Lay‏ يقضونه في تشغيا النماذج. ويرجع 
ذلك إلى كون نجاح النمذجة» يقوم على امتلاك السمات الصحيحة, Oly‏ الباحث قد 
الحكمة بداية أي مشروع من مشاريع التنقيب في البيانات انطلاقا من تشكيل متغيرات 
جديدة» مع العلم أن قائمة المتغيرات يمكن تخفيضها بالتدريج لاحقاء وترك فقط 
المتغيرات التي يتبين أنها متنبئات قوية لهدف ما أو لمتغير تابع» أو أنها تعمل بشكل 
جيد فى تحليلاات التجميع «(Cluster Analyses)‏ أو أنها مصنفات (Classifiers)‏ 

وعملياء يقوم علماء التنقيب في البيانات: 


© باستشارة ما يسمى خبراء الميدان حول العوامل التي يحسبون أنها مهمة في 
المحصلات التنبؤية» ومن ثم تشكيل قياسات تمثل تلك العوامل. إن elade‏ 
التنقيب في البيانات» هم في الغالب غرباء دخلوا في منظمة لتحليل أنشطة 
فق أن le fe‏ المظلعون التتظبميو نشكا كني إنه لمن العكمة Ol preter‏ 
هؤلاء الخبراء والحصول منهم على استبصاراتهم للاطلاع على تشكيل 
pra)‏ | 


© بخلق سمات جديدة» تعد (Ratios) ls‏ مشكلة من متغيرات قائمة؛ ففى 


“ 
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قطاع العقارات» مثلاً» قد يكون ثمن العقار للقدم المربع الواحدء LAS‏ أكثر 
فائدة من التكلفة الإجمالية أو الحجم الإجمالي لعقار ما. وفي البحوث 
الصحية» يعد مؤشر كتلة الجسم (Body Mass Index)‏ نسبة معقدة» من 
الوزن إلى الارتفاع الذي يعمل بمثابة تنبؤ مفيد بالنسبة إلى أنواع مختلفة من 
المحصلات الصحية. وفي علم السكان»ء تعد متغيرات حرجة عديدة 
معدلات (معدلات الأطفال بالنسبة إلى كل 10,000 امرأة فى سر الإنجاب. 
ومعدلات الطلاق بالنسبة إلى 1,000 زواج في السنةء وهكذا). ولهذاء فإن 
على علماء التنقيب فى البيانات» ضمان التفكير فى النسب والمعدلاات 
المناسبة لدى تشكيلهم السمات في مجموعة بيانات ما. 


© بتشكيل نسخ جديدة من متغيرات مستمرة» تهدف إلى ضبط التأثيرات اللا 
خطية لمتغير تابع هدف. ويمكن القيام بتوزيع (Binning) LES‏ هذه 
باستخدام تقسيم البيانات» أو برمجيات الشجرة» أو استخدام توزيع خانات 
مثالية «(Optimal Binning)‏ كما تمت مناقشة ذلك آنفاً. وسيتم أيضاً تقديم 
أمثلة بهذا الشأن في فصل لاحق. 


© بتشكيل متغيرات جديدة [ted‏ التفاعلات بين سمات أخرى أو متغيرات» 
ولكنها متغيرات يمكن أن تدخل - بعد ذلك - ضمن نماذج باعتبارها 
متغيرات في حد ذاتها. وسيحدد مربع GAS‏ عن التفاعل التلقائي 
«(CHAID)‏ والتصنيف وشجرة الانحدار (CART)‏ تفاعلاات تم تعصيل 
القول فيها سلفاً. 

© بالتذكير بأن بعض إجراءات التنقيب فى البيانات تتطلب من الباحث إعادة 
قياس المتنبئات قبل تشغيل النماذج. ويتجلى مسوغ إعادة قياس المتنبئات. 
فى كون أن بعض المتغيرات تقاس بالوحدات مثل الدولارات» وتأخذ Lad‏ 
من صفر إلى مليون أو أكثر» في حين إن آخرين قد يكون لها فقط فئات قليلة 
(مثلاء من واحد إلى خمسة)» وقد تبقى أخرى - مع ذلك - مجرد قيم عشرية 
لمتغيرات ذات مجموعة كبيرة من القيم أو تباين كبير» على حساب متغيرات 


104 


ذات مجموعة صغيرة من القيم. ويتمثل إيجاد حل لتلك المشكلة في إعادة 
قياس كل المتنبئات» لتتساوى فى نهاية المطاف. (تنجز بعض التطبيقات 
هذه العملية من عملية إعادة القياس dows‏ ومن ثمء لا حاجة للباحث OV‏ 
a‏ 


© بالتذكير ob‏ النوعين الأكثر شيوعاً من إعادة القياس» هما التقعيد 
(Standardization)‏ (داخل درجات ((Z-Score) z-‏ والمعايرة 
.CNormalization)‏ ويشمل التقعيد داخل > slice: Ves (Z-4>‏ إن 
متوسط القيمة بالنسبة إلى ذلك المتغير» يُطرّح أولاًء من كل قيمة مرصودة 
والرقم المحصّل عليه. يقسّم بعد ذلك على الانحراف المعياري للمتغير. 
والتقنيتان كلاهما يعملان على جعل المتغيرات متساوية من حيث القياس. 


© بالتذكير Lad‏ بإمكانية إجراء تحليل تجميع ماء لتحديد المجموعات ذات 
الحالات المماثلة في مجموعة البيانات» دون الإشارة إلى المتغير التابع» أو 
المتغير الهدف. ويمكن للباحث اختيار عدد التجميعات مقدما (غالبا حوالى 
أربعة). كما يمكن استخدام تلك التجميعات - إذن - لتحديد متغير gale‏ 
جديد» يمكن إضافته إلى مجموعة البيانات. 
وباستخدام هذه الاستراتيجيات» ينتج علماء التنقيب في البيانات سمات أو 
متغيرات جديدة يتم توظيفها في مراحل متعاقبة في تحليل التنقيب في البيانات إلى 
جانب المتغيرات الموجودة Le‏ وقد يتبين أن بعض المتغيرات الجديدة هي 
متنبئات مهمة» ولكن يمكن التخلص منها. وتعد هذه الغربلة دقيقة؛ ومن غير المرجح 
أن يهتدي المرء إلى نموذج قوي» ما لم يبدأ بمجموعة غنية من السمات. 
وإن الأنشطة المتنوعة التي تنتح السمات» إلى جانب انتقاء المتنبئات الأكثر قوة 
(سيتم مناقشة ذلك في القسم التالي)ء زائد البيانات المفقودة» JS‏ ذلك يشار إليه 
بالمعالجة المسيقة للبيانات .(Preprocessing Data)‏ 


انتقاء سمة 
إن طرق انتقاء السمة» تمكن الباحث من تحديد المتَنبّىئ المحتمل - من أصل 
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(Al dels, A محص :ها‎ E ad 
من بين متنبئات.‎ CMulticollinearity) الخطية المتعددة‎ ols على تجنب مشاكل‎ 


ويقدم eee be)‏ 7 البيانات بدائل متعددة» لانتقاء مجموعة فرعية من المتغيرات 
المستقلة التي تعد SEI‏ الأكثر فاعلية لمتغير تابع. وهناك طريقة معروفة سلفا 
البيانات. وبعد تحديد متغير مستقل» يشتغل برنامج تدريجي موجه عبر JS‏ المتغيرات 
المستقلة» مدر لكل منها قوة تنبؤية لنموذج انحدار» يضم فقط ذلك المتغير 
المستقل. ويختار المتنبى الأفضل من هذه المتغيرات. وفى خطوة ثانية» يعود إلى 
مراجعة قائمة المتنبّئات المتبقية» ويقيّم الأفضل منها الذي يحسّنْ من التطابق إذا ما 
أضيف إلى الأول في نموذج الانحدار. ويضيف ذلك المتنبئ الأفضل إلى المتنبئ 
deal Sy chew‏ مراك هديدة الى غا درل ops dhe yb de pores‏ ال ات 
التي - إذا ما مزجت - تتنبأ جيدأ بالمتغير التابع. إن طرق تقسيم الشجرة 
أو طرق التقسيم العودي «(Recursive Partitioning)‏ شبيهة بالانحدار التدريجى 
(Stepwise Regression)‏ من حيث اختبارها is‏ متنبوع محتمل على حدة وانتقاؤها 
المتنبئات الأكثر قوة» بينما تقوم اشا ts‏ تفاعلات بين متنبئات . 

ويزعم أن خوارزميات أخرى من خوارزميات التنقيب في البيانات لانتقاء 
السمة. تتفوق على الانحدار التدريجى» إما من حيث سرعة حوسبتها و/ أو من حيث 
كونها أقل تحيزاً. هناك مقاربة تعرف باسم الانحدار الأصغر للزاوية (LARS)‏ أو 
الح الأدنى للانكماش Glad!‏ في AGA‏ الانتقاء (Hastie, Tibshirani, and‏ 
-Friedman 2009; Miller 2002)‏ ويتم تنفيذ انتقاء سمة اللاسو في الطبعة المهنية 
لبرمجيات إحصاء الحزمة الإحصائية للعلوم الاجتماعية (SPSS)‏ (اختر الانحدار 
> القياس الأمثل للانحدار القاطع» وانتق اختيار التسوية). 

كما توجد خوارزمية سمة انتقاء أخرى. يفترض أنها أكثر دقة من ge UID‏ ولها 
أيضاً امتياز السرعة الفائقة» تدعى انحدار تباين عامل التضخم (VIP)‏ (لأنها تستخدم 
عوامل تباین التضخم لانتقاء SE)!‏ المحتملة). وهى متاحة بالمجان بصمته 
east =‏ فى .(Lin, Foster, and Ungar 2011) R‏ 
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وداخل R‏ اكتب Shay (VIF) (nstall:Packages)‏ معلومات إضافية 
على الرابط : .http://cran.r-project.org/web/packages/VIF/VIF.pdf‏ وسنمثل 
لذلك فى فصل لاحق. 

تقدم ثلااث إجراءات» أدوات بديلة ol]‏ متغيرات cot to‏ تعد lowe ys PITER‏ 
(Weighted Sums)‏ لمتغيرات قائمة» ويتعلق الأمر بتحليل المكون الرئيسى 
«(Principal Components Analysis)‏ وتحليل المكون المستقل (Independent‏ 
Component Analysis)‏ ومزيج من الإسقاط العشو ائي (Random Projection)‏ 
وتجزتة القيمة المنفردة (Singular Value Decomposition)‏ 


ويعد تحليل المكوّن الرئيسي أكثر التقنيات رسوخاً وهو متاح في العديد من رزم 
البرمجيات» ولهذا فإننا ننصح باستخدامه. ويجد تحليل المكون الرئيسي مجموعة 
من المكوّنات (أو العوامل» أو المقاييس) التي - إن اجتمعت - ستفسر التباين 
الإجمالي داخل مجموعة بيانات بشكل أفضل )1989 .(Dunteman‏ ويتشكل js‏ 
مكون من إضافةء عدد إلى متغيرات تم قياسها سابقاء كل بحسب عمله الترجيحي 
الخاص به. By‏ هذه المتغيرات وتحسّب ترجيحاتها بطريقة تسر فيها المكوّنات 
أو المقاييس المستخلصة. التباين الشامل في مصفوفات البيانات قدر الإمكان. 


وفى الخطوة الثانية» يتم )295( هذه المكونات (Rotated)‏ لتصبح We‏ غير 
مترابطة بأي بعد آخر. وينتح عن ذلك عدد صغير من متغيرات جديدة أو سمات 
تلخص معظم التباينات الموجودة في العدد الأكبر من المتغيرات الأصلية. ومن ثم 
فإن تحليل المكوّن الرئيسى يحقق تخفيض البعد من خلال تقليص عدد المتغيرات. 

وليس أمر معطىء أن تكون المكوّنات التي تفسر قدراً كبيراً من التباين في 
مجموع بيانات» متنبئات جيدة لمتغير تابع خاص أو Gag)‏ أو رقعة تعريف (Label)‏ 
Sony Bde Lee peed Il‏ ا عياف ا الي RY‏ كن lisse!‏ 
الأفضل للنمذجة. 
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وتتمثل سلبيات تحليل المكون الرئيسي في كون المكونات أو العوامل التي 
تنتجها قد تفتقر إلى المعنى أو التأويل. TEET‏ إجراء تحليل المكون الرئيسى 
رات EL‏ على Se‏ ات مرو اذل عا رجح cl pital‏ الأصلة بطررنة 
يفسر فيها المكون الكثير من التباين» ولكن من حيث التصورء لا يمزج ذلك - بشكل 
متكرر - متغيرات مختلفة be‏ داخل مكون واحد. وماذا تعني إمكانية مزج مكون ماء 
لأسئلة أو لمقاييس حول أفراد مختلفين اختلافاً SUIS‏ من خلال شحن مواقف تجاه 
الإجهاض بمقاييس دخل العائلة» والعمرء ومدة التنقل اليومى؟ وإذا تبين أن مكونا 
متكا من Leste ep ged poll em‏ وا ی Sy Se ASG cle C3 gad‏ العو قلق 
الحقيقة؟ 


ويعيدنا هذا إلى التوتر القائم بين تحليل البيانات الذي يركز على اليات الفهم 
وعمليات سببية» مقابل تحليل يرتكز على دقة تنبؤية. وإذا كانت الغاية من وراء بناء 
نموذج ماء تتمثل في التنبؤ بدقة» وبعدها الاستناد في القرارات إلى ذلك التنبؤء Op‏ 
عدم التماسك التصوري لمقاييس تحليل المكوّن الرئيسي» لا يهم كثيراء مادامت 
«تشتغل». وإذا كانت الغاية» هي فهم عملية سببية cle‏ فسيطرح إنتاج تحليل المكون 
الرئيسي لمتنبئات غير متماسكة وغير قابلة للتأويل» مشكلاً. 

إن برنامجاً لتحليل المكون الرتيسى» قد يعمل جيداً بمائة متغير» وبضعة آلاف 
bless.‏ وقد ها ن زلا موا EE PE‏ عاك Hee Set‏ 
dated Cl) gives dallas‏ أصبحت هلك = سانا وفنا طويلا. ولكن sped‏ 
الحظ أصبح لدى علماء التنقيب في البيانات القدرة على بسط منطق تحليل المكوّن 
Uli blest fatal pond yl‏ اك وه Uglies yolks spend‏ لواف tpt dled‏ 
E‏ هما الإشقاط pall‏ الزن تجرف ip patel Rall‏ 

أولاً: يضرب الإسقاط العشوائي مصفوفة بيانات» في مصفوفة عشوائية» لإنتاج 
- في الواقع - العديد من المتغيرات الجديدة» بحيث يحتوي JS‏ واحد منها على 
متغير قديم» يرجح بواسطة عدد عشوائي. وبعد ذلك يضيف clas‏ كل تلك المتغيرات 
المرجّحة حديثاً لإنتاج متغير جديد. وتبدو AUG‏ انطلاقاً من الانطباع الأول. فكرة 
غريبة جدا: إنتاج متغيرات جديدة» شبيهة بمقاييس» تعد مزيجا عشوائيا بشكل دقيق 
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لمتغيرات قائمة من قبل. إن تجزئة القيمة المنفردة» إذنء تحلل هذه المتغيرات 
المنتجة حديثاً لخلق عدد أصغر من الأبعاد أو الخصائص التى يمكن استخدامها بعد 
TE‏ في نموذج من نماذج الف في البيانات (Vempala 2004; Halko,‏ 
.Martinsson, and Tropp 2011)‏ إن تجزئة القيمة المنفردة شبيهة بتحليل المكون 
الرئيسي بما أنها تقلص عددا كبيراً من المتغيرات إلى متغيرات جديدة أقل. 

لقد بين علماء الرياضيات إمكانية أن يحافظ العدد الأصغر لسمات أو متغيرات» 
تم إنتاجها بواسطة إضافة نسخ مثقلة عشوائياً من المتغيرات الأصلية» على البنية التي 
كانت موجودة في الأعداد الكبرى للمتغيرات الأصلية Halko, Martinsson, and)‏ 
.(Tropp 2011; Martinsson, Rocklin, and Tygert 2011‏ 


إن beer‏ المكز نالسر og ot lin‏ تطورت دة el set‏ مات 

شبيهة بتحليل المكوّن الرئيسي. ويقول EUS‏ بتفوقها - إلى أبعد الحدود - على 
تحليل المكون الرئيسى فى قدرتها على إيجاد مكونات Leg‏ بهدف (Hyvarinen, ls‏ 
and Oja 2001)‏ 000 هناك برنامج يدعى فاست أي سي أي «(FastICA)‏ 
يمكن تحميله بالمجان من الموقع التالي: http://research.ics.aalto.fi/ica/‏ 


.fastica/ 


إنشاء نموذج 

pee‏ > أن Lin‏ نا حت ما de pores‏ اناك فة م خث السات والمتغيرات: 
يمكن للنمذجة أن تبدأ. وسيختار عالم التنقيب في البيانات نوع النموذج المستخدم. 
ولكن هذه الخطوة الأولى» خطوة مرحلية فقطء بما أن باحثا ما سيحلل البيانات» 
مستخدماً أنواع مختلفة عديدة من النماذج أو المقاربات» وسيقارن Bo‏ تنبؤها قبل 
الاستقرار على مقاربة نهائية. 

وإذا كانت غاية تحليل البيانات» هو التنبؤ بمتغير ثنائي (نعم/ CY‏ فإن علماء 
التنقيب في البيانات لهم لوحة عريضة من المصنفات التي تنجز ذلك: طرق الجوار 
القريب «(Nearest-Neighbor)‏ وطرق الشجرة» والمصنفات البايزية الساذجة 
«(Naive Bayesian)‏ والمصنفات «البايزية»» و شعاع الدعم (Support Vector JY‏ 
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Machines)‏ والشبكات العصبية» إضافة إلى الطرق الإحصائية الراسخة القديمة» 


من قبيل الانحدار om AS‏ جيستو »> ووحدة الاحتمالية «(Probit)‏ والتحليل التمييزي 
(Discriminant Analysis)‏ 


عندما يكون متغير الهدف أو المتغير التابع» قياساً مستمراء فإن قائمة التقنيات 
القابلة للتطبيق تكون «AL gb‏ بما فيها طرق الشجرة. ونماذج Can]‏ العصبية. 
والانحدار البايزي «(Bayesian Regression)‏ بالإضافة إلى مقاربات الانحدار 
التقليدي. 


إن أي شخص حديث العهد بالتنقيب فى البيانات» يسأل السؤال نفسه عند هذه 
الا :درک ما هی لطر ال تعدا علي Bil ss‏ 05 الحواب غو ها الال 
لن یروق الأحد: لبعد tll‏ عا diy bo‏ أو تقنية على حدة تم استعمالها»'. 
Ul ae‏ حون مقارنة oda dbs‏ الات De pores coders alsa‏ 
بيانات متعددة لم يجدوا أي تقنية ما واحدة تتفوق على IS‏ التقنيات الأخرى بشكل 
متسق. وإذا حلل شخص ما مجموعة بيانات منفردة» فإنه فى الغالب تتفوق تقنية على 
باقي التقنيات الأخرى» ولكن عندما ينتقل الشخص إلى تحليل مجموعة DLL‏ 
مختلفة» فإن ترتيب الطرق سيتغير بالكامل. والطريقة التي كانت بارزة من ذي قبل» 
هي الآن قريبة من الجزء الأسفل من القائمة» في حين ارتقت طريقة أخرى إلى أعلى 
القائمة. 


ربما مع الوقت» سيطور باحثون نظرية» تمكن طرق التنقيب في البيانات من أن 
تكون الأنسب لمجموعات بيانات معينة» ولكن ذلك لم يحدث إلى حد الساعة. يبدو 
أن خصوصيات مجموعة بيانات cle‏ تهم حقا - مظاهر بنيتها التي لم نستوعبها 
بسهولة. ولا يمثل ذلك حاجزاً عملياً أمام التحليل» وإنما يعني فقط أن أي عالم 
حساس من علماء التنقيب في البيانات» يجرب تقنيات نمذجة عديدة بالنسبة إلى 
lets Ga ees‏ كل تقنية ضمن هذا السياق الفريد بشكل 
A>‏ 


wa ؟‎ 


)1( لم يحسم المؤلف أمره بخصوص التقنيات المثلى التبعة في تحليل البيانات» لتوفر كل تقنية على حدة 
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المرء الثاني 
أمثلة عملية 


النصل الغامس 


إعداد التدريب 


ومجموضات SLORY! Sty‏ 
منطق الصلاحية المتبادلة 


ناقشنا lal‏ كيف أن الصلاحية المتبادلة تعمل بمثابة آلية مراقبة جودة فى عملية 
التنقيب في البيانات» وأشرنا إلى كيفية اختلاف طرق الصلاحية المتبادلة على نحو 
مهم» عن الاختبارات التقليدية من أجل دلالة إحصائية. سنناقش OV‏ بشكل واضح. 
منطق الصلاحية المتبادلة» وتقديم - بعد ذلك - دليل يبين كيفية تنفيذ هذه التقنية 


a 


عملياء مستخدمين عدداً من الحزم الإحصائية. 

إن العديد من نصوص التنقيب في البيانات» تتناول منطق الصلاحية المتبادلة 
على نحو عابر de‏ بحيث يتم التركيز على تطبيقها العملي: كيف تقدّم الصلاحية 
المتبادلة We‏ لمشكلة يمكن أن تصادفه لدى استعمالها طرق مكثفة لمعالجة بيانات 
ضخمة. وفي بعض نصوص التنقيب في البيانات. PAE‏ الصلاحية المتبادلة باعتبارها 
طريقة تمنع التدريب (Nibset, Elder, and Miner, 2009; (Overfitting) b „tJi‏ 
-Kuhn and Johnson 2013)‏ وفي نصو ص أخرى. ses‏ باعتبارها طريقة لانتقاء 
نموذج ما )2012 (Murphy‏ كما تستعمل أيضاً في نصوص أخرى» وسيلة من 
وسائل تقييم دقة النموذج )2012 .(Han, Kamber, and Pei‏ وفي الواقع. إن 
الصلاحية المتبادلة تشير إلى كل ما ذكر عنهاء ولكن لماذا هي على هذا النحوء ولماذا 
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تعد هذه المشاكل مترابطة» هما OV gus‏ غامضان. من أجل ذلك» نحاول هنا ملء هذه 
الثغرة التصورية. 

إن الإشكالات التي يعالجها التنقيب في البيانات بالتوسل بطرق الصلاحية 
المتبادلةء هي إشكالات محورية ومألوفة في اا العلمية. وفي البحث العلمي 
الذي holies Videos es SIRES‏ بالنتائج الموجودة في اد ا في 
حدّ ذاتهاء باعتبارها وصفاً صالحاً لكيفية عمل العالم بشكل عام OY‏ طبيعة الحظ 
للمعاينة أو أخذ العينات (Sampling)‏ وإمكانية الحدوث العشوائى فى تجربة ماء 
cal lass‏ | سكا إلى درجة أن نتائح دراسة واحدة» هي فيه اناد ظروف 
عرضية. وكي يتم الوثوق بالنتائج والقبول بهاء عليها أن تحصل على دعم من بحوث 
متعددة متتالية. وباختصارء لا بد من إعادة النتائج على نحو مستقل» ويكون ذلك 
مثالياء إذا قام بذلك باحثون مختلفون ANS‏ 

تسمح إجراءات الصلاحية المتبادلة للباحثين باستعمال هذا المنطق داخل بحث 
أو تحقيق واحد. وفي طريقة الصلاحية المتبادلة الأكثر cibla‏ يقسم الباحثون 
بياناتهم إلى عينات فرعية قبل بناء نموذج تنبؤي. ولأن تقسيم البيانات عشوائي, نظرا 
للغايات المحدودة للبحث المتوافرء فإن العينات الفرعية المولدة تشكل مجموعات 
ترصدات مستقلة؛ فهي ليست مستقلة بمعنى شامل» بما أنها مستخلصة من الساكنة 
نفسها (أي المجموعة الكاملة من البيانات). ولكن داخل الكون الذي حدد من أجل 
الدراسة» وحدد Lal‏ من قبل البيانات التي نحن بصدد استخدامهاء تصبح 
المجموعات الفرعية مستقلة عن بعضها بعضا عبر العشوائية (Randomization)‏ 
سواط تحرج se ign is‏ ل جات ep ll ny‏ 
Pad teens‏ وهذه الخطوة الأخيرة تمثل اختباراً مستقلاً لدقة النموذج. 

pnd‏ ارات Of OL Ve!‏ الم عات he iI‏ دف ال دة 
التي تم إنتاجهاء متشابهة قدر الإمكان من حيث الخصائص المناسبة (انظر Stee‏ 
(Rubin 8‏ ولكن لها نتيجة مريحة أخرى» تستغلها طرق الصلاحية المتبادلة 
للتنقيب في البيانات: التغير العشوائي بين المجموعات الفرعية التي تم إنتاجها عبر 
تعيين عشوائي .CRandom Assignment)‏ وإن السمات التمييزية (Idiosyncratic‏ 
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Features)‏ لأي مجموعة فرعية معينة تم خلقها بشكل عشوائي» قد لا تتكرر - أصلاً 
- في المجموعات الفرعية الأخرى. وفي المقابل» من المرجح أن تكون الانتظامات 
التجريبية عبر المجموعات الفرعية خصائص الساكنة بأكملهاء أي إنها ستخبرنا 
بالإشارة (Signal)‏ التى نريد الانتباه إليها؛ إن التغير العشوائى عبر العينات الفرعية 
يكن 4b Sie‏ ااا ج gal‏ تود Les clued Ob‏ 


ولهذه أهمية خاصة لمرونة طرق التنقيب في البيانات وقوتها الشديدة في إنتاج 

بقة نفسها بشكل وثيق مع البيانات» فهي عرضة للسماح للضجيج بالقيام بدور 
أكبر مما يرغب فيه المرء في توليد النموذج الذي يقوم على أي مجموعة خاصة من 
- هى لعنة. إذ سينتجون نموذجاً دقيقاً للغاية» محققين كمالا تقريبأء فى الدقة التنبؤية 
بالنسبة إلى المجموعة الخاصة من الترصدات التي قامت عليها. ولكن هذه النتيجة 
مخيبة للآمال. أو «مغفرطة فى التفاؤل» بتعبير أحد الباحثين القدامى )1931 (Larson‏ 
Ly‏ أن هذا النموذج لن يكون أداؤه جيداً أبداً انطلاقاً من عينة. وهذا ما يشير إليه 
متخصصو التنقيب فى البيانات بالإفراط فى التدريب (Overfitting)‏ ويمكن أن 
يساعد استخدام الصلاحية المتبادلة المساعدة فى انتقاء النموذج و Arti‏ وتقليص 
إمكانية حدوثه. 

لنتأمل سبب أهمية هذا فى نهاية المطاف. إن خوار زميات التنقيب فى البيانات» 
يمكن أن تكون أدوات قوية للتنبؤء كما يمكنها - من ثم - تحسين القدرة العملية 
التشخيصية؛ أي إنه» إذا تدربت خوارزمية من خوارزميات التنقيب فى البيانات على 
مجموعة من البيانات التي يستطيع الباحثون من خلالها الولوج إلى القيمة الحقيقية 
لمتغير النتيجة (Outcome Variable)‏ والتحقق من مجموعة مستقلة حيث قيم 
النتيجة معروفة أيضاًء يمكن نشرها لاحقاً في بيانات حيث متغير النتيجة - أي كمية 
الفائدة - غير معروف. على سبيل المثال» يمكن لأدوات التنقيب فى البيانات تحسين 
قفو الما رسي E‏ ن الا cast‏ غير السرطائية SS Ug‏ إلى 
هذا التطبيق العملي» فإنه بات من الأهمية بمكان» أن تكون النماذج دقيقة» من خلال 
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لدينا تعقيب أخير حول أهمية طرق الصلاحية المتبادلة. وقد بات لدينا يقين في 
مسار بحثنا أن القوة التنبؤية لطرق التنقيب في البيانات الكثيفة Ces‏ 
(Computationally Intensive)‏ تأتي بتكلفة» من حيث قدرة النماذج على فهمها 
فهما Lb‏ من قبل البشر. ويصف كوهن (Kuhn)‏ وجونسون Johnson)‏ )2013( هذا 
«بالتوتر بين التنبؤ والتأويل». وغالباً ما تدخر نماذج التنقيب في البيانات قوتها عبر 
تعقيد متزايد» مما يجعلها مربكة» وإن لم نقل ببساطة إنها مبهمة بالنسبة إلى المحللين 
البشر. ولكن يرى كوهن وجونسون - خاصة في حالات الحياة والممات - عدم 
إيلائها أي أهمية» وأن تفضيل نموذج مفهوم وذو أداء ضعيف نسبياء على حساب 
نموذج ذو «علبة سوداء» وتنبؤي للغاية» هو أمر «غير أخلاقي». وفي سياق النماذج 
التي تعجز نتائجها عن أن تكون مفهومة he pow‏ ويوحي ظاهرها بأنها دقيقة للغاية 
تبدو الصلاحية المتبادلة وسيلة أساسية من وسائل توليد الثقة عبر الاختبار الصارم. 

وباختصارء تمنح الصلاحية المتبادلة اختباراً مستقلاً للنموذج المتطور بتقنية من 
تقنيات التنقيب في البيانات. فهي تساعد على اختيار النموذج «الأفضل» (انتقاء 
النموذج) من حيث قدرته على التنبؤ من عينة» وعلى تقييم القدرة التنبؤية «الحقيقية») 
لنموذج ما (تقييم النموذج). ويساعد هذا على الاحتراز من إمكانية انتقاء نموذج 
متوقف أساساً على البيانات الخاصة التي كانت تقوم عليها - أي إنها تحترز من 
التدريب المفرط. كل هذه الوظائف مترابطة بإشارة مشتركة إلى منطق الاختبار 
المستقل وموثوقية التنائج القابلة للتكرار. والآن نعرض لنقاش مختصر للطرق 
المختلفة للصلاحية المتبادلة» وبعد ذلك نشرع في توضيح كيفية أداء الصلاحية 
المتبادلة» من خلال التوسل بعدد من البرامج الإحصائية. 

طرق الصلاحية المتبادلة: نظرة شاملة 


يفك تولك SUL le pores‏ (المستقلة» يطرق شت غير أن الطريقة PSV‏ 
بساطة من حيث التصورء والأكثر تعقيداً - في الوقت نفسه - من حيث العمل 
الحقيقى المطلوب. تتمثل فى الاشتغال ببيانات جمعت على نحو منفصل . وإذا قمنا 
ely‏ مراع S53‏ لمعدل rere)‏ متوسلين ببيانات مأخوذة من مستشفى ciol g‏ 
فسيكون بإمكاننا إخضاعه للاختبار انطلاقا من بيانات تم جمعها في مستشفى 
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مختلف. ولكن هذه الحالة نادرة إلى حد ماء على الرغم من أنها مرغوب فيهاء على 
ما يبدو. إن عملية جمع البيانات مكلفة» ومن غير المرجح أن يرغب الباحثون 
والممولون فى مضاعفة تكاليف البحث لمجرد قدرة المتمذٍجين التنبؤيين الحصول 
عن وع bly‏ افا Has‏ 


ومن ناحية أخرىء توجد ثلاث طرق يتم من خلالها توليد البيانات المستقلة من 
مجموعة بيانات وحيدة: النظام التمهيدي (Bootsrapping)‏ والكابح العشوائي 
«(Random Holdback)‏ وطية-ك (K-Fold)‏ وتشمل الطريقة الأولى» المعاينة 
العشوائية بالاستبدال» من أصل البيانات المتوافرة لدينا. وغالباً ما يتم القيام بهذه 
العملية» مرات عديدة؛ فتنشأ مجموعات بيانات عديدة منفصلة بحجم مساو لحجم 
مجموعة بياناتنا الأصلية. وإذا كنا نظن أن بياناتنا الأصلية» كانت عينة عشوائية نسبياء 
مأخوذة من الساكنةء فإن «النظام التمهيدي» يقدم طريقة غير متحيزة لتوليد عينة 
عشوائية لكل العينات العشوائية الممكنة. كما يمكن استخدام IS‏ عينة من العينات 
الممهدة (Bootstrapped)‏ المتعددة في تحليل البيانات» وتقديم مجموعة من النتائح 
(المعاملات أو الاحتمالات المتنبأة» على سبيل المثال)» التي يمكن بعد ذلك إيجاد 
متوسط لها للحصول على نتيجة عامة. 


PAi g‏ «النظام التمهيدي» ٫‏ بعض الجوانب الإيجابية المتفوقة على طرق أخرى. 
سيتم مناقشتها لاحقاً. كما يمكن بخاصة - من خلال البوتسرابينغ - توليد تقدير 
على حد .(Efron 1979, 1983; Efron and Gong 1983) el pw‏ علاوة على 
las a. = i EAE‏ معيارياً iene Date y‏ ا 0 p a‏ 
)2( إن معدل الخطأ = لعدد الحالات 0 أساء en‏ تقسيمها ا مقسوم على 
La‏ ود لك Aline igh‏ ير BM‏ من يدانت seat‏ 
وسيشكل تقدير (الواتسراس» Uns Berra:‏ . ومن الممكن La‏ حساب les‏ «الواتسراب» المعياري الذي 


يعادل الانحراف المعياري لمعدلاات الخطأ في مجموعه å‏ العينات الممهدة ة التي نم إعادة تشكيلهاء مقسوم 
على جذر مربع لحجم العينة. (المترجم) 
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النمذجة الإحصائية على هذا الاعتبار أساساً. وأخيراء إن «النظام التمهيدي» ينتج 
ديا ا (Estimate Smoothed)‏ لمعدل الخطأء لأنه يولد مجموعات بيانات 
متعددة» عوض مجموعة بيانات واحدة» التي على أساسها يتم اختبار النموذج. ومع 
ذلك. إن «النظام التمهيدي» كثيف جدا حسابياء وقد يكون مستنزفا للوقت لدى 
استخدامه مع مجموعات بيانات كبيرة. 


وتعد مقاربة «النظام التمهيدي» قيمة بخاصة عندما يكون لدى المرء عينة صغيرة» 
يبدأ بها عمله» حيث القوة الإحصائية تشكل eb‏ قضية من القضايا. ولكن في حالات 
أخرىء تكون لدينا بيانات تحتاج إلى الصقل» وهو pol‏ يزداد صحة في عصر البيانات 
الضخمة. وفي هذه الحالة الأخيرة» يمكننا تبني مقاربة أكثر بساطة للغاية من 
البوتسرابينغ. تدعى الكابح العشوائي ‘(Random Holdback)‏ يمكننا ببساطة تقسيم 
البيانات إلى مجموعة تدريب ومجموعة اختبار» وبناء نموذجنا باستخدام الأول. 
وإخضاع الثاني للاختبار. كما يمكننا تقسيم البيانات بين أجزاء التدريب وبين أجزاء 
الاختبار إلى ما نشاء من النسب - 50/ 50 70/ 670 وهكذا. 


وفي المقابل» يمكننا تبني مقاربة ثالثة باستخدام ما يسمى بالصلاحية المتبادلة 
لطية-ك (k-fold)‏ ويشمل هذاء تقسيم البيانات بشكل عشوائي إلى أجزاء-ك (أو 
طيات -ك). ذات حجم متكافىئ. بحيث تكون (ك) lous‏ من اختيار الباحث. (وأما 
القيم النموذجية ل (A)‏ المستخدمة في حزم البرامج الشعبية» فهي 5 أو 10 طيات)؛ 
ثم يبني الباحث نماذج (ك) منفصلة» بحيث يستخدم كل واحد منها فقط ib‏ من 
الطيات. ويتم اختبارها بعد ذلك» على آخر ما تبقى من الطيات. وفي جوهر ell‏ 
المحصل عليهاء يتم اختبارها على بيانات لم تستخدم في توليدها. ثم يمكن ادماج 
النتائح من خلال إيجاد المعدل» أو يمكن اختبار النموذج المناسب جدا. وتعد هذه 
الطريقة أيضاً جيدة بالنسبة إلى مجموعات بيانات صغيرة نسبياً. 


وسنبين الآن كيفية إنجاز طية-ك والصلاحية المتبادلة الكابحة باستخدام حزم 
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«الستاتا» 


See (CEI) ol‏ في الحقيقية حزمة من حزم التنقيب في البيانات» وعليه فإن 
الصلاحية المتبادلة لم تبنى داخلها على نحو يجعلها سهلة الاستخدام بشكل خاص. 
ومن الضروري - على حد علمنا - القيام بالصلاحية المتبادلة الكابحة «باستخدام 
اليد). 

op‏ الأمر الأول الذي يجب القيام به لإنجاز الصلاحية المتبادلة الكابحة» هو 
تقسيم البيانات بشكل عشوائي إلى جزئين». وتسمح «الستاتا» بمعاينة عشوائية 
تمكن الباحث بعدهاء من إنتاج مجموعة بيانات منفصلة» غير أننا نظن أنه من اليسير 
جدا التوليد ببساطة» متغير يسمح بتقسيم عشوائي. ويمكن القيام بذلك من خلال 
توليد معادلة ols‏ حدين (Binomial)‏ باستخدام الشفرة التالية: 

gen x = rbinomial (n,p) 
ل «الستاتا».‎ (Crossfold) الجدول رقم 21.5 نتائج مأخوذة من برنامج الطية المتبادلة‎ 
عدد الطيات المتبادلة خطأ جذر متوسط المربعات‎ 

0.3352256 1 
0.3308182 2 
0.3365854 3 
0.3280907 4 
0.3264875 5 


وتعمل هذه التسمية على توليد متغير جديد يدعى × بحيث يوزع باعتباره Vales‏ 
ذات حدين. ويمثل المعلم on‏ عدد تجارب المعادلة ذات حدين تبعاً لکل حالة. في 
حين تمثل م احتمال «النجاحات». أما بالنسبة إلى الإسناد العشوائي» فتقوم 1 n=‏ 
وم على انهيار التدريب/ الاختبار الذي ترغب فيه. وإن تحديد في قيمة .65 سيولد 
متغيراً جديداً ذا انهيار يقدر ب 50-150 /. للوحدات والأصفار؛ كما أن تحديد P‏ في 
قيمة .7» سينتج انهيارا بواقع 70 - 6/30 وهكذا. 
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وأما الاختبار المستقل» فتلك قصة أخرى. ففي حدود علمناء قد يشمل هذا بناء 
نموذج (انحدار لوجيستي) انطلاقاً من قسم من البيانات (حيث 1 = = CK‏ بحيث 
O58‏ تقديرات المَعلّم في المتجه (Vector)‏ ثم يتم تنبؤ الحصيلة في باقي البيانات 
(حيث 0 = = (x‏ وذلك باستخدام معادلة انحدار مولدة عبر ضرب مصفوفة متغيرات 
في هذه المتجهة من المعاملات. وتعد هذه العملية شاقة نوعاً ماء ويدخل المستعمل 
في حقل برمجة مصفوفة في «الستاتا»» التي تعد مقدمة إلى حد ما. وباختصار» يصعب 
القيام بتثبيت الكابح (Holdback)‏ في «الستاتا)» SY‏ مصمميه لم يبنوا - من حيث 
المبدأ - النظام وفي ذهنهم انشغالات تتصل بالتنقيب في البيانات. 

ويمكن القيام بالصلاحية المتبادلة لطية-ك مباشرة بواسطة برنامج يولده 
المستخدم» يدعى الطية المتبادلة .(Daniels 2012) «(Crossfold)‏ وتستخدم الطية 
المتبادلة صياغة (Syntax)‏ «الستاتا» التالية: 


Crossfold regress yvars xvars, k (k) 


ويمكن استبدال «الانحدار» في هذه الصياغة باللوغاريثم (Logit)‏ أو مقدّرات 
(Estimators)‏ أخرى. ولسنا واثقين - التوثيق لا يخبرنا بأي شيء - على وجه 
التحديد» من عدد المقدّرات التي تدعمها الطية المتبادلة. وعلى JS‏ حال» فهي تقدم 
إحصائيات تطابقية انطلاقا من نماذج ك (K)‏ (مع اختيار الباحث ل ك (k)‏ وتسمح 
باختيار الإحصائيات التطابقية - Ibs‏ جذر متوسط المربعات (RMSE)‏ خطأ 
المتوسط المطلق» أو R?‏ - الزائفة. وثمة نتيجة نموذجية» يبينها الجدول رقم 1.5» غير 
أنها لا تمثل تقنية الصلاحية المتبادلة الأكثر إفادة» بل تقدم اختبارات ك (k)‏ المستقلة 
لنموذج ما. 


R 


لسنا على دراية بروتين R‏ المعين. الذي ينتج صلاحية متبادلة كابحة (Holdback‏ 
CV)‏ وقابل للمزج بأي روتين تحليلي. هناك بعض روتينات R‏ تدمج الصلاحية 
المتبادلة عبر الكابح (مع افتراض أن المرء سبق أن أنتج مجموعات اختبار وتداريب). 
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وتعل الصلاحية المتبادلة الكابحة بالنسبة oo!‏ هذه الروتينات سهلة TAEI‏ ق حين 
تعد صعبة بالنسبة إلى أخرين» صعوبة وجودها فى «الستاتا». 


ومع AUS‏ توجد روتينات الصلاحية المتبادلة لطية-ك فى .R‏ وإن cv.glm‏ 
واحدة من )5 OLAS‏ الصلاحية المتبادلة لطية-ك. التى تعد dwd‏ بخاصة. وهى جزء 
من الحزمة التى يطلق عليها اسم بوت )2010 (Canty and Ripley‏ وتستخدم في 
عملية صلاحية متبادلة تهم نماذج خطية عامة تطابقية سابقة. ويمكننا تسمية ذلك 
باستخدام الصيغة التالية: 

cvl<-cv.glm (data, glmfit, k) 
ead إلا‎ cL (Dataset) تمثل مجموعة بيانات‎ (Data) وحيثما كانت البيانات‎ 
cvl$delta 

نعود متجهة العددون: تطابق صلا > متبادلة» وتطابق صلا حية متبادلة معدلة 
(إذا أدخلت قيمة (k)‏ عوض إسقاطها من الصلاحية المتبادلة المفترضة). ومُنح 
العدد الأخير oF‏ عملاً إحصائياً ما يقترح إمكانية أن يولد إسقاطه قيمة ل (K)‏ من 
الصلاحية المتبادلةء تقديرات متحيزة لتطابقية الصلاحية (Davidson and Hinkley‏ 
(1997. من أجل هذاء ينجز البرنامج بعض العمليات للتعويض عن هذا التحيز. 

lg p اغامب‎ 

تعد الصلاحية المتبادلة سهلة للغاية في «غامب yy‏ وتتم بطريقتين. فبالنسبة 
إلى بعض الروتينات Ged‏ يتطلب «الغامب برو توفير متغير صلاحية - أي 


)3( وفي حالة إسقاط قيمة ل ك (k)‏ من الصلاحية المتبادلة. بالنسية إلى مجموعة بيانات تضم ترصدات «n‏ 


يُبنى نموذج ما على ترصدات | nm‏ وبعد ذلك» يتم اختباره على الترصد المتبقي. ويتكرر هذا 2 مرات. TSE‏ 
الحقيقة. يعد إسقاط قيمة ل ك (k)‏ من الصلاحية المتبادلة حالة خاصة من الصلاحية المتبادلة لطية-ك. 
حيث ك (k)‏ مساو n‏ .المترجم) 
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متغير اسمي «(Nominal Variable)‏ يضم Led‏ مختلفة تشير إلى أقسام التدريب 
والاختبار. وتدعو الحاجة إلى متغير يتم فيه تعبين القيم بشكل عشوائي في النسب 
التي نرغب فيهاء على أن يتم ذلك بسهولة عالية. وفي القائمة الرئيسة «للغامب Mg‏ 
انقر كولز نيو كولم .(Cols New Column)‏ أما الويندوز (Windows)‏ الذي يفتح, 
فهو مبين في الشكل رقم 1.5. 

ونغير اسم العمود (Column)‏ من القيمة الفرضية (Default)‏ إلى ded‏ مضبوطة 
أو صالحة LS) (Valid)‏ هو الحال في الصلاحية (Validation)‏ ونغير النوع 
المنمذج (Modeling)‏ من القيمة الفرضية المستمرة (Continous)‏ إلى dow!‏ 
(Nominal)‏ وبعدها ننتقي عشوائية تحت قائمة مهد البيانات Initialize Data)‏ 
ويمكننا ذلك من اختيار توزيعات مختلفة» a‏ من: العادي» والمتجانس أو 
المنتظم (Uniform)‏ والثنائي ذي الحدين (وهو ما يسحبه الدال العشوائي 
.((Random Indicator)‏ وننتقي الدال العشوائي. ونغير الع للفبحتين 0 و1 إلى 
5 و 0.5 (وتحدد قيمة 2 في 0). وببساطة, Ob‏ نقر OK‏ يستمر في توليد متغير 
الصلاحية. كما يمكن ببساطة إدخال المتغير في مجالات الصلاحية «ويندوزات» 
لاحقة من «ويندوزات» بناء النماذج» LS‏ هو Jli‏ في البرنامج (Platform)‏ ا 
للانحدار التدريجي «Stepwise Regression)‏ والمبين في الشكل رقم 2.5. كما 
تملك برامج (Platforms)‏ أخرى لنموذج ما مواقع صلاحية متبادلة مدمجة 
(Built-In)‏ في الغامب IMP)‏ وعلى سبيل المثال» Kay‏ برنامج التقسيم 
(Partition)‏ (بالنسبة إلى أشجار التقسيم) الباحث من الإشارة إلى «قسم الصلاحية» 
(Validation Portion)‏ في «ويندوزا برنامج النموذج الأساسي. كما پمک 
المستخدمين من اختيار الصلاحية المتبادلة لطية-ك في «ويندوز» المنفذ للنموذج. 
وتمكن الشبكات العصبية كذلك المستخدمين من تحديد قسم كابح. وسنعرض إلى 
ذلك بتفصيل أكبر في شجرة التقسيم وأقسام الشبكة العصبية أدناه. 
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الشكل رقم 5 إضافة الصلاحية المتبادلة للانحدار التدريحى فى «(غامب برو». 
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1 ions: © Train and test © Train, test and validation 
| | Traning pariton size Labet Vaive = 
| Tesino panton sze: 

| | Validation partition size: | ol Label Validation 

| Total size: 100% 


: Values: © Use system-defined values ("1", "2" and "3") 


Ta 
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il Geena) Gakic) 





الشكل رقم 3.5: الصلاحية المتبادلة في نموذج الحزمة الإحصائية للعلوم 
الاجتماعية (SPSS)‏ 


نموذج الحزمة الإحصائية للعلوم الاجتماعية 

إن تَمودْج الحزمة الإحصائية للعلوم الاجتماعية» أي حزمة محلل البيانات 
المتخصصة في إحصائية العلوم الاجتماعية يسهّل الصلاحية المتبادلة بخاصة» عن 
طريق الكابح (Holdback)‏ وإن البرنامج الذي سنصفه لاحقاً بتفصيل AST‏ يشمل 
توليد تدفقات (Streams)‏ عمليات إحصائية عبر الإشارة والنقر (Point—and—‏ 
(011010؛ بحيث يضم کل تدفق (Nodes) (ude‏ قادرة على إنجاز عمليات» ولكل 
عقدة «ويندوز» clas yo‏ يمكن من خلاله مواءمة معلمات متعددة. ويتم انتقاء العقد 
من «لوحات الآلوان» التي تضم عقدا مماثلة. 


وفي مجالات لوحات Ol JVI‏ اختر عقدة التقسيم» وانقر مرتين كي تفتح الشاشة 
المبينة أعلاه في الشكل رقم 3.5. وداخل العقدة - كما يمكن مشاهدة ذلك - يمكن 
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للفرء تح اتا عات Gated‏ وال go g Ce Deals) Lee‏ لدد ر ا دعن 
التقسيم (أو اسم آخر إذا ما غيّره الباحث)» الذي يمكن انتقاؤه بصفته متغير صلاحية 
فى نمذجة العقد. 
ويمكن إنجاز طية-ك kal‏ لفائدة بعض التطبيقات الأخرى فی النموذج أو 
«المودلير» (Modeler)‏ (أقرب الجيران ل «ك»» شجرة التقسيم 0.5 الشبكة 
العصبية)» ولكن داخل العقد بالنسبة إلى هذه العمليات النموذجية المحددةء وليس 
باعتبارها عقدة منفصلة. 
وظلت آي بي el‏ تحسن من إحصائيات الحزمة الإحصائية للعلوم الاجتماعية 
(SPSS)‏ - وهو برنامج الإحصائيات المنتظمة المستخدمة في مئات الفصول 
الدراسية الجامعية - من خلال تطبيقات التنقيب فى البيانات المتعددة. وإن لبعض 
من هذه التطبيقات خيارات داخلية نال gl‏ الصلاحية المتبادلة. ومع ذلك» من 
السهل - بما يكفي - تقسيم أي مجموعة بيانات من بيانات الحزمة الإحصائية للعلوم 
الاجتماعية إلى قسمية عشزاقيةتبالتسية إلى التدريت dm de lee Vy‏ سواه 
باستخدام الصياغة العادية للحزمة الإحصائية للعلوم الاجتماعية. وفي المثال أدناه. 
قمنا بتقسيم بياناتنا Lil phe‏ بحيث حُدّدت 80/ من الحالات» باعتبارها تدريبا 
وحدد ما تبقى (20/) باعتباره اختباراً؛ هذاء وبإمكان المستخدمين اختيار نسبهم 
الخاصة بهم. ويمكن فراءة الصياغة على youl‏ التالى: 
USE ALL.‏ 
COMPUTE filter $ = (uniform (1) < = .80).‏ 


VARIABLE LABELS filter $ ‘Approximately 80 % of the cases 
(SAMPLE)’. 


FORMATS filter $ (f1.0). 
FILTER BY filter $. 


EXECUTE. 
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Filter OFF. 

Recode filter_$ (0 = 0) (1 = 1) into datagroup. 

var label datagroup ‘training or test’. 

value labels datagroup 0 ‘test dataset’ 1 ‘training dataset’. 


execute. 


وتأخذ مجموعة البيانات (Datagroup)‏ المتغيرة قيم 1 بالنسبة إلى الترصدات 


التي تم إسنادها بشكل عشوائي إلى 80./ من فرعية pal‏ 0 بالنسبة إلى تلك 


126 


الفصل السااس 
أدوات انتقاء المتغير 


عندما تُحلل بيانات ضخمة» نواجه سيلاً من المعلومات» ولدينا حالات عديدة 
أو معلومات كثيرة عن كل حالة من أجل استخدام فعال لمناهج إحصائية معيارية. 
وسبق لنا أن رأينا كيف أن مسألة امتلاك حالات كثيرة جدأء يمكن أن يتسبب في 
توفت ليوا مج أو في اشتغالها ببطء على نحو غير ملائم» كما رأينا كيف يمكن لهذا 
خا of‏ اول اط فين SLL, dyles Gob‏ بو تظهر AST dle‏ قرزا Latics‏ 
تكون لدينا معلومات كثيرة جدا عن کل حالة» وبتعبير آخر عندما تكون لديئا متغيرات 
أكثر مما ندرك ما نقوم بها. 

ويستخدم مختصون في التنقيب في البيانات» حرف N‏ للإشارة إلى ste‏ 
الترصدات أو الحالات» وحرف ‏ للإشارة إلى عدد المتغيرات» أو المتنبئات» أو 
الشات PS OS IGS by‏ كييرة toed le‏ ع An‏ تقلصن_مقداز 
المعلومات التي نحتاج في المعالجة من خلال انتقاء تلك المتغيرات ذات الأهمية 
القصوى والتخلص من الآخرين. 

ثمة حل للتحول إلى مجموعة من التقنيات» تدعى طرق انتقاء مجموعة فرعية 
«(Subset Selection)‏ أو طرق الضبط. وقد تم تطوير هذه النوع من الطرق - تحديدا 
- من أجل أتمتة عملية انتقاء المتغير» (ولهذا السبب نفسه. فهي غالبا ما تنتقد من قبل 
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محللى بيانات تقليديين لكونها غير نظرية «(Atheoretical)‏ ومقيدة بالبيانات). 
وتعمل الطرق قيد ال لبحث» من خلال | s‏ ستكشاف - من بين قائمة طويلة من ١‏ اقات 
- تلك التي تؤدي أداء جيداً من حيث شرح التباين على مستوى المتغير التابع. 


وقد كان الانحدار التدريجي الروتين «المؤتمت» الأول الذي تم تطويره لاختيار 
المتغيرات» وهو لا محالة» الانحدار الذي لقى استهجاناً شديداً - بشكل متكرر - من 
قبل الرافضين :ليله الجر مات gly‏ تطرين الاجر التدريعي» ا إلى 
حالات y‏ فيها باحث ماء بوفرة المتغيرات المستقلة فى مجموعة بيانات P gi)‏ 
at SI i aS‏ كلاو glo gees og pas‏ معد GLEN‏ ی ينها anal‏ إن gad‏ 3 
ما. ومن المحتمل أن تبقى الحالة نفسها التي تستعمل فيها في معظم الأحيان» ولكن 
هناك حالات أخرى يمكن أن تستعمل فيها بشكل مثمر» ويكون لاستعمالها - على 
ما يبدو - أكثر من مبرر. 

وفي تجربتناء يمكن استخدام الانحدار التدريجي ليس فقط للتخلص من أعداد 
هائلة من متنبئات محتملة. تمثل التأثيرات الرئيسة» بل أيضا للتدقيق فى الشروط ld‏ 
الترتيب التفاعلي العالي بين المتنبئات. لنتصور أن لدينا اثنتا عشر متغير تنبثي» نود 
ضمها إلى نموذج ما. ولكن نريد أن نكون واقعيين بشأن حقيقة أن العالم Y‏ يضم فقط 
Lal, das Sot Shel‏ أيضاً التفاعلات نيو الات وريد أن ee deb‏ الاعتار 
إمكانية تفسير بعض التفاعللات» ere lus‏ فى متغير النتيجة (Outcome‏ 
Variable)‏ . وإذا ما رغبنا في ضم تفاعلات في ote OL «palo‏ السماتة gl‏ 
المتنبئات في النموذج ترتفع من 12 إلى 88. كما يرتفع هذا العدد إلى 100 131 ما 
Lal Wer‏ على ضمّ القيم التربيعية - تفاعلات متغير ما مع نفسه - للسماح بعلاقات 
منحنية الأضلاع بين متنبى × والنتيجة لا. وإذا ما قررنا أيضا السماح بتفاعلات من 
ثلاث اتجاهات. (لنقلء بالعمرء والجنوسة» والدخل)» فسيصل عدد المتنبئات فى 
ارا ج nite 320 Il‏ ومع ذلك اليس كل تلاك 320 be gle — pice‏ و Lage‏ 
of stem‏ وات eld‏ ولالة loge gf‏ | دن يدانا pats‏ ا اروف ا 


سمة ماء التي تستطيع أن تخبرنا بالمتغير المهم من بين هذه 320 متغير. 


وتعمل إجراءات الانحدار التدريجى من خلال إحدى الطرق الثلاثة» بحيث تبداً 
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الأولى - الانتقاء الأمامي (Forward Selection)‏ - بنموذج يضم فقط متغير اعتراض 
(Intercept)‏ وبعد ذلك تفحص JS‏ متغير مستقل على حدة» وتختار «الأفضل» 
(وسنعود إلى كيفية تحديد الأفضل بعد حين). وبعد دخول هذا المتغير في النموذج 
التنبؤي» يعيد البرنامج هذه العملية» مع اعتبار المتنبئات المرشحة المتبقية مرارا 
وتكراراً - بإضافة متنبئ متفوق في الوقت نفسه - إلى حين اختيارها النموذج 
«الأفضل» (ومرة أخرى سنحدد ذلك لاحقا) . 


أما الطريقة الثانية للازالة الراجعة «(Backward Elimination)‏ فتبداً بضم كل 
المتغيرات المتاحة فى انحدار أولى» وبعدها تختبر كل واحدء للنظر فى المتغير الذي 
سكن ان كو | er‏ هن اتوت أمراً مفيداً. وتنتهي بنموذج DEE‏ 
حيث عدد المتغيرات «المعتمدة». وأخيراء ثمة طريقة معروفة بالانحدار التدريجى 
الأمامي = or‏ اجع (Forward- Backward Stepwise Regression)‏ تجمع 5 
الانتقاء الأمامي والإزالة الراجعة» كما يبين الاسم ذلك. ومثلها في ذلك مثل الانتقاء 
الأمامي فالطريقة تبدأ بنموذج صفري/ عدمي (Null Model)‏ وتدخل متغيرات 
بشكل تكراري عندما تلبي معياراً ماء ولكنها أيضاً تزيلها (في حالة ما) وعندما تنزل 


EUS See‏ تع date‏ ماس 


ويتم انتقاء المتغيرات سواء على مستوى ضمها أو إقصائها من خلال إحدى 
الطريقتين: أما الطريقة الأولى» فتضم استخدام قيم- م بالنسبة إلى متغيرات المتنبئ 
الفردي. Sees‏ قد يعطي الباحث تعليماته للبرنامج بضمٌ متغيرات فقط إذا كانت تتوافر 
على قيم-م» تصل إلى 0.05 أو أقل من ذلك» وتقصيها إذا ما تجاوزت قيمتها0.10. وإن 
معيار إدراج المتغير هذاء الموجه بالكامل نحو المتنبئات الفردية» هو ما يستخدم 
حصرياء في الخوار زميات التدريجية لبعض الحزم التجارية مثل حزم (الستاتا» Stata)‏ 

وثمة مقاربة بديلة تتمثل في استخدام cle ee‏ من قياسات تناسب Cx‏ 
الشاملة أو العامة بحيث عادة ما يوجد قياس A‏ نموذجاً ماء لإضافته كيدا من 
sole‏ كما تضم قياسات التناسب» WaR‏ ومعيار آي آي سي للمعلومة 
(AIC)‏ ومعيار بايز للمعلومة (BIC)‏ وقيمة C, Shed‏ ويتم ضم المتغيرات أو 


حذفها على لجان التحسن الذي يقوم به JF‏ متغير لفائدة نموذج الانحدار بشكل 
cele‏ كم تم تقييمه من قبل | لتغيم في الإحصائيات التناسبية | لمعينة من لدن الباحث. 
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يتم اختيار «النموذج النهائي» بطريقة تشبه طريقة اختيار المتغيرات الفردية. وإذ 
ما تم استخدام قيم-6 في انتقاء المتغير» فستتوقف الخوارزمية في بناء نموذج انحدار 
تدريجى بمجرد وجود كل المتغيرات التى تستجيب للمعايير المحددة للباحث فى 
النموذج Sits)‏ كل المتغيرات في النموذج لديها قيم p-‏ 0.05 أو أقل؛ ولا يدخل أي 
متغير آخر في النموذج الذي قد يكون له هذا النوع من قيمة-م. ومن ناحية أخرىء إذا 
الإحصاء التناسبي - أي النموذج الذي يملك أعلى قيمة Aine‏ أو معيار بايز للمعلومة 
الأقل انخفاضا. 

وكلا الطريقتان سريعتا التأثر بخطأ النوع 1» لأنه لا يتأثر - على الأرجح - بإيجاد 
خطأ ely‏ المرتبط بالنتيجة بشكل كبير» فى مجموعة متنبئات كبيرة» إلا بمحض 
الصاف وما قد de‏ هذا Lely‏ جدا ف All GAIL tile! ULI‏ عل 
قيمة-م للانتقاء» ينطبق الأمر Lad‏ على طرق الانتقاء التي تستخدم مقاييس isle‏ 
لتناسب النموذج. وبالنظر إلى وجود متنبئات كافية» سيكون لزاماً على المرء - 
بمحض الصدفة - رفع القدرة التنبؤية بشكل CHS‏ لتجاوز عتبة الإدراج (الضم). 

ويبدو أن أفضل الطرق لتجنب خطأ النوع 1» هي تلك الطرق التي تستخدم قياسا 
لتناسبية النموذج باعتباره «قاعدة توقف)» والتي تنتقي المتغيرات على أساس Po pred‏ 
ولكن قيم-م التي تأخذ بعين الاعتبار قضية المقارنات المتعددة. وقد نطبق مثلاً 
قاعدة بون فيروني (Bonferroni Rule)‏ محددين قيم-7 في م a/‏ حيث إن ر ھی 
صارمة جداً. وثمة مقاربة أخرى اقترحها )2004 «(Foster and Stine‏ تفيد باختيار 
متغيرات فى ترتيب تصاعدى بحسب إحصائيات اختبارها e(t Statistics)‏ بدء بعتبة 


ومثلها مثل أي مقاربة أخرى تعتمد على البيانات» سيكون من المرجح جداً أن 
يفرط الانحدار التدريجى فى تناسبية النموذج قيد الدرس (ولو أن استخدام عتبة أكثر 
صرامة للإدراج» سيحل هذا إلى de‏ ما). ومن ثم يعد التحقق من البيانات انطلاقا 
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من مجموعة shel‏ مفصلة OULD‏ أمرا lage‏ ولابد من قل قناسبية الضلاعة 
المقناؤلة وفت ما كان ذلك Lae‏ 

مغال في «الغامب برو) 

سنبين أهمية استخدام الانحدار التدريجي للخوارزمية التدريجية «للغامب» التي 
نرغب فيها بسبب الخيارات المتعددة لقواعد التوقف التي تمنحهاء وبسبب السهولة 
التي يمكن أن تضاف معها التفاعلات والمتغيرات المتعددة الحدود (Polynomial)‏ 
إلى النموذج. (ومع ذلك إن الانحدار التدريجي متاح في حزمات إحصائية أخرى 
عديدة Ly‏ في ذلك الحزمة الإحصائية للعلوم الاجتماع (SPSS)‏ ونظام التحليل 
الإحصائي (SAS)‏ 


i (Ese) [ontiona’ numeric (Remove) a‏ ۰ ظ 


Construct Model Effects 


Transform ¥ 
EI No Intercept 





الشكل رقم 6 الانحدار التدريحى فى «الغامب برو). 


سنستعمل في هذا الشرح» بيانات صادرة عن مكتب تعداد و المجتمع 
الأميركي لعام 2010« التي سحبنا منها بشكل عشوائي مجموعة بيانات تهم 15000 
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المتحدة» وذلك باستخدام عدد صغير - إلى حد ما - لمتغيرات التأثير الأساسية: 
المنطقة. العمر. الحالة ele YI‏ والاعتبار المهنى. والعرق» والجنوسة. 
والمواطنة» والتحصيل العلمي» والحالة الوظيفية» والالتحاق بالتعليم. 


ولتشغيل انحدار تدريجى» مستخدمين «الغامب» نتوجه إلى (Analyze) « Je»‏ 
ونختار نموذج التناسب JRA Fit Model)‏ رقم 1.6). وفي الزاوية العليا اليمنى 
لعلبة حوار نموذج التناسب «(Fit Model Dialog Box)‏ ننقر القائمة الشخصية 
«(Personality Menu)‏ ونختار «متدرج « (Stepwise)‏ كما نستطيع إضافة ترجيح 
احتمالية (متغير يدعى PERWT‏ المقدم من قبل المسح لتصحيح عدم الاستجابة). 
ونخبر البرنامج Lal‏ باسم متغير صلاحية cle‏ الذي سميناه «صالح» وقمنا بإنتاجه 
سابقا في «الغامب» ونقسم عشوائياء مجموعة البيانات إلى مجموعة بيانات التدريب 
ومجموعة اختبار (في نسبة 2:1). وبعدها ننقر liag (Run) Jad‏ يفتح منصة 
الإطلاق التدريجي (Stepwise Launch Platform)‏ (الشكل رقم 2.6( التي تعدد 
Ms‏ ا اي اھ في ي نموذجنا. 





| OMB ss 
289478 rows not used due to excluded rows or messing values. 





RSquare RMSE 

SSE DFE are RSquare Adj Cp p 6نم‎ BIC Validation Validation 

14187436 16738 291139886 0.3801 03600 5002.8147 3 1003889 1804198 03589 2908305 
LockEntered Parameter 


| 
p 
REGION West South Central Div &Pacific Divisiong South Atlantic Division-Middle Atlantic DivisiongEast South Central Drv &Mountain Ovision&East North TA 1 
| 
| 


MARST[Mamed, spouse present&Widowed-Divorced} EL 
MARST Married, spouse present-Widowed} =t 
HWSEI 


race?2fnatve americanSlatino&Otheréblack&asian-white} 
race 2{natve americanSdatino-Other&black&asian} 


SAISON NAO 
3 35 5 ترم مك وان 5 قرت‎ Ped Ee 


الشكل رقم 2.6: مُخرج من الانحدار التدريجى فی «الغامب برو). 


يجب علينا تفسير قيام «الغامب» Fo‏ ذكي ذي متغيرات 968 644 غير غير ثنائية التفرع 
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في انحدار تدريجي. er‏ من عرض المتغير الفئوي «(Categorical Variable)‏ 
باعتباره مجموعة متغيرات وهمية لصفر أو واحد. مع حذف فئة خط أساسي واحد. 
يقوم «الغامب» بترميز الفئات تراتبياً. ويقسم الفئات أولاً إلى مجموعتين لهما وسائل 
متفاوتة بالنسبة إلى متغير الاستجابة» ثم يضيف متغيراً وهمياً لهذه المفارقة. وداخل 
هذين المجموعتين» تقسمها بعد ذلك مرة أخرى إلى مجموعتين آخريين على النحو 
نفسه» وهكذا. على سبيل المثالء تأمل ما قام به «الغامب» مع متغير «التحصيل 
العلمى»؛ فهو يقسمه أولاً إلى مجموعتين: أقل من المستوى الثانوي» مقابل كل 
الفئات الأخرى. ثم بعد ذلك يقسم هذه المجموعة الأخيرة إلى مدرسة ثانوية + كلية 
+ غاب أى درجة » blac‏ در حه ال + در حه + مسة 
ما + غياب أي درجة ciale‏ مقابل درجة الزميلة + درجة الباكالوريوس + مستو 
- أما المجموعة الأولى» فبإمكانها القيام بعملية التقسيم مرة واحدة. 


- في حين إن المجموعة الثانية تنقسم مرة أخرى إلى درجة الزميلة + درجة 
الباكالوريوس مقابل مستوى أعلى من درجة الباكالوريوس. 


وتتمحور الفكرة في كون أن هذه المجموعات تم تجميعها تراتبياً على مستوى 
النتيجة بحيث تبقى المجموعات Sly‏ دات اكد تمان على مستوى متغير 
النتيجة» مجتمعة ضمن مجموعة واحدة. وهذا الاختلاف التراتبي لديه فائدة السماح 
للبرنامج باختيار نموذج انحدار أكثر تقتيراًمن نموذج يضم JS‏ القيم المنفصلة لمتغير 
فئوي باعتبارها متغيرات وهمية إذا كان ذلك التقتير مفيد لتناسب النموذج. وكما هو 
مبين في لقطة الشاشة (الشكل رقم 2.6( فلقد حددنا متغير صلاحية» وبالتالي 
سنستخدم الحد الأقصى لصلاحية R?‏ كقاعدة توقف. وعتبات قيمة p-‏ (تدخل 
النموذج وتغادره)» والحذ الأدنى لمعيار (AIC)‏ أكايكي للمعلومة والحد الأدنى 
لمعيار بايز (BIC)‏ للمعلومة. ثم نحدد الاتجاه الذي يجب على الخوارزمية التدريجية 
المضي قدماً فيه ونختار الانحدار التدريجي. أما الخيارات الأخرى» فتدعى الخيار 
الراجعة (Backwards)‏ والخيارات المختلطة (Mixed)‏ بحيث يكون هذا ell‏ 
متاحاء فقط عندما تستخدم قواعد التوقف لقيمة-م. 
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إن قائمة القواعد (Rules)‏ ترتبط بمتغيراتنا الفئوية المنظمة تراتبياًء إذ إن في 
الإعداد الافتراضي «(Default Setting)‏ وادمج (Combine)‏ والخيار ALZA‏ 
سيثير انتقاء تمايز بالغ الدقة» إدراجاً تلقائياً لمجمعات رفيعة المستوى. وإذا لم تكن 
ترغب في ذلك» غير الإعداد إلى Yo‏ قواعد» (No Rules)‏ (وهو الأمر الذي لا ننصح 
به البتة). وعلى نحو عرضي» تظهر النماذج ذات متغيرات التفاعل على نحو مماثل 
في خوارزمية تدريجية «للغامب»؛ أي إن انتقاء تفاعل ماء سيؤدي تلقائيا إلى إدراج 
متغيرات مكونة كلهاء اللهم إلا إذا لم يتم انتقاء YD‏ قواعد» (No Rules)‏ 


يسمح لك «الغامب» بتشغيل البرنامج خطوة واحدة في JS‏ مرة لمعاينة تطور 
النموذج. أما الخطوة الأولى في نموذج التأثيرات الأساسية cha‏ فتضم الاعتبار 
المهنى. وتبلغ R?‏ من 0.21 ونضم الخطوة الثانية العمر ai‏ يرفع R?‏ إلى 0.36( 
متبوعا بم 1 باد ا سا 
الخوارزمي : الف الا عر pistes‏ .495 كما 
هو مبين في الجدول رقم 1.6. ويمكن رؤية تطور تناسبية النموذج» من خلال اختيار 
- في أعلى الزاوية من ويندوز المُخرّج - قائمة «المثلث الأحمر)ء تاريخ المعيار 
«(Criterion History)‏ ثم تاريخ مربع (R-Square) R‏ (ويحتوي العديد من 
ويندوز «الغامب»» قوائم تدعى المثلث الأحمر الذي يشير إلى الأسفل). وعلى 
القوائم باعتبارها مثلثات حمراء). وكما هو مشار إليه في الشكل رقم 63.6 إن معظم 
التحسن الواقع في تناسبية النموذج» تم بلوغه في العشر خطوات Jal‏ ولم يتم 
بلوع تحسينات متواضعة جدا إلا بعد عشرين خطوة أو متنبئات. ومع دل سمو 

بكل اک نستطيع القيام بأفضل من هذا من حيث emer bod‏ إذا ما أدر جنا 
متغيرات تفاعل» من خلال اختيار نموذج الإعادة (Relaunch Model)‏ الذي تعيدنا 
إلى علبة نموذج التناسب. ونضع OYI‏ الدرجة (Degree)‏ في 2 (بالنسبة إلى متغيرات 
تفاعل من اتجاهين). وفى علبة اختر الأعمدة «(Select Colums)‏ نبرز كل متغير اتناء 
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ثم a‏ من قائمة ماكروس .(Factorial to Degree) (Macros)‏ وتدخل هذه 
تلقائيا كل التفاعلات الممكنة في اتجاهين باعتبارها متغيرات مرشح. ومن أجل 
قياس جيدء ندرج أيضا متغيرات تربيعية بالنسبة إلى العمرء والاعتبار الوظيفي. وفي 
هذه المرةء يأخذ البرنامح 54 خطوة لبناء النموذج الأمثل على مستوى تناسب 
الصلاحية. وأصبح للنموذج المنتقى حاليا R?‏ من 0.6123 في مجموعة التدريب» 
و.0.6064 في مجموعة الاختبار» وأدخلت 68 معلم في النموذج» بما في ذلك 
متغيرات التفاعل. 


se a” Jas 4‏ المنتقاة oe Mele‏ تثير إدراج المتغيرات المكونة. 
ومن ثم» OB‏ كل متغيرات التأثير الأساسي» استعملت - إلى حد ما - في النموذج. 
ولكن ليس كل otal‏ المنفصلة للمتغيرات الاعتبارية (Nominal)‏ أو الفئوية تم 
استخدامها. على سبيل Soll‏ لم يتم إدراج إلا ثلاثة مناطق تباينات» ولم يتم تصنيف 
خرن اا الا اط 
تجمعات الفئوية» يصبح تفسير المَعْلمات Lal‏ صعباً. وإذا ما درسنا مَغْلم العم 
مثلاء فسنجد أن النموذج قد اختار التأثير الأساسي للعمرء والمتغير التربيعي» وثمانٍ 
التأويل. وبهذه الدرجة من التعقيد. يكون من الصعب - وإن كان غير مستحيل - 
تأويل فقط ما سيكون عليه «تأثير تغيير وحدة واحدة في العمر على الدخل». ومع 
ذلك إن إدراج متغيرات التفاعل هذه قد زاد من الدقة التنبؤية الخارجة عن البيانات. 


الجدول رقم 1.6: نموذج انحدار التأثيرات الأساسية. 


p p 
pb! ب الو سط > ن المخيط‎ ge المنطقة: غ ب‎ 
.01 -0.030 1 ل لق‎ fat ee 
أاخرى‎ plas والهادي»‎ 
001 -0.097  ىسلطألا المنطقة: غرب جنوب الوسط. مقابل جنوب المحيط‎ 
028 0.075 المنطقة: جنوب المحيط الأطلسى» مقابل الهادي‎ 
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المنطقة: منتصف المحيط الأطلسي» جنوب شرق الوسطء 
الجبل» مقابل شمال شرق الوسط. شمال غرب الوسط» 
وبريطانيا الجديدة 

المنطقة: شمال شرق الوسط. شمال غرب الوسطء مقابل 
بريطانيا الجديدة 

اله تنهال شرق الوسظة مانا تسمال قري ل 
العمر 

الحالة الاجتماعية: لم يسبق له الزواج قط متزوجء الزوج 
غائب» مقابل منفصل» متزوج» الزوج حاضرء أرملة وطالق 
الحالة الاجتماعية: متزوج» الزوج حاضر وأرملة» مقابل طالق 
الحالة الاجتماعية: متزوج» الزوج wale‏ مقابل أرملة 
الاعتبار المهني 

العرق: آخرء مقابل أبيض 

العرق: أميركي أصلي ولاتيني» مقابل أسود» آسيوي» وآخر 
العرق: آخر وأسود. مقابل آسيوي 

اش 

غير مواطن 

التعليم: أقل من درجة التعليم الثانوي» مقابل الباقي 
التعليم: المدرسة الثانوية» وكلية cle‏ مقابل AA‏ و84 وأعلى 
من ذلك 

التربية: التعليم الثانوي مقابل بعض الكليات 

التعليم: AA‏ و84 وأعلى من ذلك 

عاطل 

في المدسة 

ثابت 

R2 

Reise 
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-0.023 


0.038 


0.085 
0.040 


0.062 


-0.133 
189.- 
0.061 


0.046 


0.193 

0.261 
-0.281 
-0.639 


0.141 


-0.146 
0.193 

-1.435 

-1.039 
3.204 
0.508 
0.495 


.049 


.104 


.071 
<.001 


<.001 


<.001 
<.001 
<.001 


<.001 


<.001 
<.001 

007 
<.001 


<.001 


<.001 
<.001 
<.001 
<.001 
<.001 


خلاصة 


يمكن استعمال الانحدار التدريجى فى انتقاء - من أصل مجموعة كبيرة من 
المتقيرات الستقلة- تلك المتغيرات السشلة الأكقر كيزا ومسا فهر يسععمل 
في سياقات حيث لدى باحث ما سمات في مجموعة البيانات. ويمكن أيضاً استعمال 
التقنية لتحديذ تلك المتغيرات التفاعلية بين المتنبئات التى تحسن القوة التنبؤية 
لنموذج ما. وعادة» des‏ العديد من متغيرات التفاعل الخ ويمكن Lanta‏ 





الشكل رقم 3.6: تطور تناسبية النموذج التدريجي في «الغامب برو». 
ومن الأفضل استخدام الانحدار التدريجي بنوع من الصلاحية المتبادلة» OY‏ 
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هذه التقنية ستفرط في تناسبية البيانات. ومن ثم CR? OB‏ أو الإحصائية التناسبية 
لبيانات التدريب ستكون عالية بشكل مصطنع. ومع ذلك إذا اهتم الشخص بالقوة 
التنبؤية لنموذج ما من أجل عينة الاختبارء فإن التفريط في التناسب لن يصبح مشكلا. 
وإن R?‏ بالنسبة إلى مجموعة بيانات الاختبار هو مقياس صالح للقوة التنبؤية لنموذج 
الانحدار. 

اللاسو 

كما تمت الإشارة إلى ذلك» ينتنض ‏ بعض المحللين من OLS‏ الاتجدار 
التدريجي» مثلما يتتقصون من شأن العديد من مقاربات التنقيب في البيانات. والذين 
يرون الطريقة باعتبارها (تجرد la‏ للبيانات» (Data Fishing or Data Dredging)‏ غير 
نظرية. ويرى هؤلاء الباحثون أن تحرك النمذجة الإحصائية نظرية حول العمليات 
السببية والمتغيرات التي تمثلها. ولكن الانحدار التدريجي تعرض أيضاً للنقد من 
داخل الحقل المعرفي نفسه الذي يبحث في التنقيب في البيانات. ويشير هؤلاء النقاد 
إلى أن طبيعة عملية انتقاء متغير - أي ae‏ المتغيرات أو تركها - يجعل الانحدار 
التدريجي غير مستقرء ومن ثم غير موثوق به إلى حد ما. وإن التغييرات الصغيرة في 
البيانات» مثل معاينات (Samplings)‏ عشوائية مختلفة مأخوذة من مجموعة أكبر من 
الحالات» يمكن أن يقود إلى اختيار مجموعات فرعية من المتغيرات من لدن 
خوارزمية تدريجية. والطريقة التي عوض أن تحتفظ بالمتغيرات بالجملة أو تتخلص 
منهاء تقوم بانتقاء أكثر تدرجاً واستمرارية» تبدو مفضلة. 


إن «اللاسو) (الذي يشير إلى الانكماش المطلق للغاية. وإلى مشغل الانتقاء). 
يمثل هذه الطريقة بالذات. ورحرض eee ae‏ 
تنكمش فيه تلك المتغيرات الأقل تنبؤأء نحو الصفر. وهذا يجعل «اللاسو» مماثلاً في 
ie ead ee ae e aJo —‏ ا 
التدريجية لعملية انكماش «اللاسو»» يعنى أن إدراج متغير ما أو ype y ae‏ 
ale? J‏ وعميق "s‏ معاملات تلك ل بقيت. ومن 3 فإن 00 A‏ 
lees‏ 

E T‏ يرتبط جز اء «اللاسو» بمجموع القيم المطلقة لمعاملاات الانحدار 
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(وهذه هي مسافة «مانهاتن» أو تجمع المدينة للقوة الموجهة للمعاملات» التي تدعى 
Lal‏ معيار (CL,‏ عادة بعدما يتم تقعيد ۴ المتنبئات باعتبارها الفرق المعياري عن 


متوسط القيم .(Z-Scores) z-‏ وفي صيغتها الأولى )1996 (Tibshirani,‏ تم تقييد 
مجموع هذه القيم المطلقة لتصبح أقل من معلم تضبيط» t‏ وإذا حددت t‏ أكبر أو 
تساوي المجموع المرصود للقيم المطلقة للمعاملات من نموذج المربعات الصغرى 
العادية (OLS)‏ للخط الأساسى (Baseline)‏ فلن يحدث أي انكماش وستساوي 
تناسبية «اللاسو». وإن لدى عملية تقليص معلم التضبيط هذا إلى أدنى من ذلك 
المجموع» تأثير تقييد هذه المعاملات. وتستخدم تباينات أخرى - مثل الطريقة التي 
نستخدم - تحولاً لهذا المعلم الذي يزيد من القيود أكثر في أعلى قيم. 


«AUS OLS s‏ نبدأ بعرض نموذج مربعات صغرى عادية بشكل كاملء. متنبئين 
بنسبة الأصوات لدى أوباما في العام 2012 في محافظات OLY sll‏ المتحدة. وهذا 
الانحدار «العادي» سيستخدم كمؤشر مرجعي (Benchmark)‏ نقارن من خلاله 
«اللاسو». واخترنا هنا مجموعة كبيرة إلى حد cle‏ من المتغيرات المستقلة - 22 فى 
المجموع - التي تصف أبعاد ديموغرافية متعددة لهذه المحافظات (الكثافة السكانية, 
cls‏ جح العرقيء وبنية العمرء والخصائص الاقتصادية» وغيرها). وقد بين الجدول 
E‏ وللسقن من أهمية هذا النموذج في حد ذاته» وأنه يفسر 
نسبة جيدة من التباين ذ فى التصويت: 158 ولكن. وبشكل واضحء لدينا بعض 
المتنبئات المترابطة. fo 25 pst oS yey pte iy‏ و رده دوا ا 
لاستخدام «اللاسو». وثمة برنامج «الستاتا»» المقدم من OU‏ المستخدم الذي ينفذ 
«اللاسو» («اللارس» (Lars)‏ يحدد وظيفة CUD‏ ولكن يظهر أنه في بداية 
مراحله من التطور. وتوجد القدرة من أجل «اللاسو» فى «الغامب برو» 12» وفى 
إحصائيات الحزمة الإحصائية للعلوم الاجتماعية (SPSS)‏ مادام يشتري الشخص 
حزمة فئات الحزمة الإحصائية للعلوم الاجتماعية. R Gay‏ على الأقل - روتينان 
(Two Routines)‏ ينجزان «اللاسواء ويسميان (بينلايزد») (Penalized)‏ و«لارس». 
وهما متاحان عبر .cran.rproject.org idal Ji‏ وسنفترض ia‏ خط أساسي مع R‏ 
مع التركيز هنا على حزمة )35.2( (Goeman, 2010; Goeman, Meijier and‏ 
.Chaturverdi 2012)‏ 
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ونبدأ بدعوة بسيطة لدالة R‏ بما فى ذلك الإعدادات الافتراضية فى الغالب» 
lassol < -penalized (obama~Inpopdens+tageltl 8+age1834+age6S5over+‏ 
imdens+perwhite+perasian+ perblack+perlatin+edhigher+edhstedl‏ 


hs+unempmale+unempfem+perpov_q+divorce2per+samesexperte 
vprot!0+hhsizet+occprofman+medincthsdrop 1619, lambdal = 500, 


standardize = TRUE) 
بحصة أوباما‎ Lis الجدول رقم 2-6: نتائج من انحدار مربعات صغرى عادية‎ 
من الأصوات ضمن بيانات على مستوى المحافظة.‎ 


المتغير المعامل (SE)‏ المعامل المقعّد 

الكثافة السكانية (log)‏ **)0.157( 2.398 0.278 
/ أقل من 18 Lle‏ )0.101( 0.775- 0.177- 
.7 بين 34-18 Lle‏ )0.0710( 0.534- 0.177- 
.7 وأكثر ***)0.100( 0.636- 0.179 
القن :من غير Sb‏ ***)0.0311( 0.476- 0.625- 
Gral.‏ )0.116( 0.165 0.0260 
السود من غير الإسبان )0.0309( 0.0147 0.0145 
ee‏ **)0.0360( 0.0748- 0.0651- 
ea‏ 5 كلية ***)0.0613( 0.563 0.329 
/ خريج ثانوية فقط )0.0477( 0.314 0.147 
ا ***(0.0514) 0.214- 0.106- 
الثانوي 

معدل البطالة لدى الرجال ***)0.0729( 0.920 0.232 
معدل البطالة لدى النساء -)0.0795( 0.0808 0.0184- 
معدل الفقر ***)0.0642( 0.249 0.101 
/ مولود بالخارج ***(0.0643) 0.174- 0.0637- 
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/ طالق **-)0.0424( 0.104 0.0438- 


0 بحرم الحم **)0.582( 1.718 0.0374 
نفسه 
y » 7,‏ متا انجلا ***(0.0133) 0.277- 0.304- 
معدل ت ا 00 ***(1.341) 8.242- 0.135- 
هن of‏ دار ***)0.0487( 0.369- 0.163- 
متو 2 الدخل -7.34e-05 (4.16e-05)*‏ 0.0567- 
معدل الهدر المدرسى )0.0337( 0.0173- 0.00655- 
ثابت ۰ ***(7.903) 130.0 
ترصدات 3,114 
R?‏ 0.586 


JOE‏ 1: الأخطاء المعيارية فى القوسين. 
**x**p > 001, **p > .01, *p > .05‏ 


وهذا يشغل النموذج. ويحدد خيار Me)‏ 1ء الجزاء المرتبط بمجموع القيم 
المطلقة للمعاملات. وستنتج قيم أكبر انكماشاً أكثر نحو صفر معاملات الانحدار. 
ومن الممكن Lal‏ استعمال خيار منفصل يدعى «لامدا» 2 المرتبط بجذر المربع 
لمجموع مربعات معاملات الانحدار (مسافتها الإقليدية أو معيار ML,‏ وسيؤدي 
إدراج لامدا 2 عوض لامدا 1ء «بينلايزد» إلى إنجاز انحدار الحيد (Ridge‏ 
.Regression)‏ ومن الممكن في (بينلايزد» تحديد É‏ من لامدا 1 ولامدا 2 لجزاء 
النموذج على نحو أكثر تعقيداً. وقد يقصي المرء أيضاً بعض المتغيرات المشاركة من 
الجزاء» وقد يجزي المعاملات المتنوعة بشكل مختلف. ولكن سنركز هنا على Sle‏ 
مباشرة من اللاسو. وقد قعدنا أيضا متغيراتنا باعتبارها فرقا مغيارى عن متوسط 
قيم-22 مقدما (بحيث يكون (standardize = TRUE‏ 


ولرؤية معاملات الانحدار» ندخل 


Coefficients (lassol, «all») 
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نالتبية إلى ا lal‏ العموة الى 7 واا OB‏ لدي كز cl arte‏ 
معاملات لا صفرية/ عدمية» وهي متطابقة تقريباً مع تقديرات المربعات الصغرى 
العادية. وفي الحقيقة» علينا جعل الجزاء أكبر للغاية لرؤية تغيير نموذج قوي. ولا 
شيء يُسقط بتاتأ إلى أن يبلغ الجزاء 500. وفي العمود الذي يضم 500( تنخفض 
بعض المعاملات بالنسبة إلى المتنيئات إلى الصفر. حتى بعد مضاعفة الجزاء مجددا 
( إلى 1,000)» نحتفظ ب 15 متغير مشارك. ويحدث هذا من دون OV ELE‏ العديد 
من متغيراتنا المشاركة» تساهم - في الحقيقة - في تفسير التباين في النتيجة» وبسبب 
حجم عينتنا الكبيرة (3,114 = (N‏ نسبياً. 


وبمجرد أن تبدأ المتغيرات في الانكماش إلى الصفر» تحدث بعض الأشياء 
المهمة؛ فبينما معظم المعاملات تنكمش بشكل مفردة النغمة بارتفاع الجزاء» يرتفع 
المعامل فى نسبة السود إلى أن يساوي لامدا 1 = 1,000» وبعدها تنخفض قليلاً. وأما 
المُعامل الصغير في حصة السكان السود في النموذج الأول فقد كان مفاجئاً. وهذا 
يقترح أن في نموذج متعدد التغيرات» تكون تأثيرات هذا المتغير مقنعة بالمتغيرات 
المشاركة المتصلةء ولكن يمثل هذا متنبئاً مهمأ فى حدّ ذاته ولذاته. وأما المتغير 
المتعلق بالناس المطلقين باعتبارهم نسبة تمثل بالغين لم يتزوجوا قط» فينخفض إلى 
الصفر في لامدا 1= 500 ويعاود الظهور في 1000 ثم ينكمش إلى الصفر. وفي 
العمود الأخير من dell‏ ذي جزاء يبلغ 65,000 لدينا مجموعة أصغر laa‏ من 
متغيرات مشاركة للفحصء بحيث يفسر IS‏ واحد منها Lad‏ متواضعاً من التباين فى 
البيانات. 

يستطيع py?‏ إنتاج رسم بياني» مبينا كيفية انكماش معاملات الانحدار 
بالتزامن مع ارتفاع الجزاء. ولرؤية هذا الرسم البياني» نخبر أولا البرنامح بغرض 
حساب المعاملات في الوقت الذي ترفع فيه العقاب على فترات منتظمة (الخطوات 
= 100). وبينما يكون بالإمكان Me‏ رسم بيان» باستخدام عدد أكبر من المتغيرات 
ولأجل عرض واضح. نقدر نموذجا أكثر بساطة: 
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lassol<-penalized (Obama , ~ Inpopdens+imdens+perplack+perwhite+ 


= 100, trace = FALSE, 


edhigher+evprotl0, lambdal = 2, steps 


standardize = TRUE) 


الجدول رقم 3.6: معاملات الانحدار من «اللاسو» التي تتنباً ب حصة أوباما 


sq.mile السكان/‎ 
(log) 

/ العمرة 1< 

/ البيض غير الإسبان 
Tar.‏ 

/ الباكالوريوس أو 
درجة أعلى 

/ نسبة البطالة بين 
الرجال 

/ بروتستانتي 
oe‏ 

/ آسيوي 

/ دبلوم المدرسة 
الثانوية 

/ أقل من دبلوم 
المدرسة الثانوية 

/ معدل الفقر 

/ أسرة مكونة من نفس 
ol‏ 

معدل حجم الأسرة 


من الأصوات بعقوبات متفاوتة. 


2 
2.396 


-0.7730 
-0.4756 
0.01499 


0.5619 


0.9195 


-0.2767 


0.1646 
0.3139 


-0.2140 


0.2489 
1.716 


-8.242 


100 
2.313 


-0.689 
-0.452 
0.027 
0.527 
0.916 


-0.274 


0.150 
0.301 


-0.200 


0.238 
1.644 


-8.263 
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قيمة جزاء لامدا 1 
500 
2.139 
0.474- 
0.372- 
0.079 
0.402 
0.973 


-0.263 


0.101 
0.233 


-0.171 


0.153 
1.504 


-7.425 


1000 
2.063 


-0.375 


-0.300 


0.125 


0.246 


1.025 


-0.249 


0.0301 
0.126 


-0.158 


0.070 
1.355 


-5.926 


5000 
1.631 


-0.131 


-0.172 


0.116 


0.166 


0.699 


-0.163 


0.000 
0.000 


0.000 


0.000 
0.000 


0.000 


/ المهني/ الإداري 0.3682- 0.333- 0201- 0.053- 0.000 


معدل الطلاق 0.1036- 0.062- 0.000 0.012 0.000 
/ العمر 34-18 9 = 0.439- 0.161- 0.000 0.000 
/ العمر 65+ 0.6331- 0.509- 0.177- 0.000 0.000 
/ مولود بالخارج 0.1735- 0.159- 0.087- 0.000 0.000 
ei I‏ 0.07460- 0.063- 0.026 0.000 0.000 
معدل البطالة بين النساء ‏ 0.07988- 0.036- 0.000 0.000 0.000 
معدل الدخل 0.073- 0.030- 0.000 0.000 0.000 
(s 1000s)‏ 


معدل عدم إتمام التعليم ‏ 0.01715- 0.010- 0.000 0.000 0.000 


الثانوي 


- ونقول له أن يقوم بإنتاج رسم بياني من هذه العلاقة. إنه يساعد على تقعيد 
المعاملات هنا لكي لا تؤدي القياسات المختلفة إلى أن يطغى بعضها على الآخر. 


Plotpath (lassol, log = «x», standardize = TRUE) 


إن الرسم البياني المحصل عليه (الشكل رقم 4.6( إضافة إلى التقعيد» تسمح لنا 
بتصور المتغيرات التي تبقى مهمة بالنسبة إلى النموذج. ونستطيع رؤية أن المتغيرات 
التي تبقى في النموذج مدة طويلة» هي تلك التي كانت - البداية - مترابطة بشكل كبير 
للغاية (إيجابياً أو سلبياً)» مع حصة أوباما من الأصوات: نسبة سكان المحافظة التي 
تمثل البيض غير BUS, OLLI‏ السكانية» ومعدل البطالة بين الرجال» ونسبة 
السكان الذين يمثلون البروتستانتيين الأنجلكان. ونسبة السكان البالغين الحاصلين 
على درجة الباكالوريوس. أو درجة أعلى. وإن لدى نموذج انحدارء يحتوي LB‏ على 
هذه المتغيرات الخمسة. R?‏ معدلة من 0.49( مقارنة ب .0.58 في النموذج بأكمله. 
كما يمكن أن تخبرنا هذه المتغيرات الخمسة» بعض الشيء» عن أنماط انتخابية كلية. 
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inpopdens 


coefficient 









- imdens 


5 evprot10 





. ٠٠١ perwhite 


10,000 1000 100 10 5 
lambda 1 


الشكل رقم 4.6: انكماش المعاملات 
في إعدادات مختلفة من معلم الجزاء في «اللاسوا (من CR‏ 
أكثر قابلية للتأويل بشكل كبير - يقلص لا محالة من القيمة التنبؤية الإجمالية. 
وعموماء نريد موازنة التقتير بدقة تنبؤية. 
وتسمح لنا الحزمة المعاقبة Laf‏ باستخدام الصلاحية المتبادلة لطية -k‏ لتحديد 
مدى تناسبية نموذج ما. ويمكننا إنجاز الصلاحية المتبادلة لنموذج ما بالشفرة التالية: 


cross<-cvl (obama, ~Inpopdens+ageltl18+agel834tage6S5over+imd 
ens+ perwhite+perasian+perblack+perlatin+edhigher+edhs+edlhs+e 
dlhs+unempmale+unempfem+perpov_qtdivorce2per+samesexpert+ 
evprot!0+hhsize+occprofman+medincthsdrop1619, lambdal =500, 
fold = 10, standardize = TRUE) 


وينتح هنا شيء يدعى كروس (Cross)‏ الذي نخزن فيه نتائح الصلاحية المتبادلة 


145 


انطلاقاً من نموذج يتنبا بحصة أوباما من الأصوات» مستخدمين 22 متغيراً مستقلاً. وبعد 
النموذجء علينا تحديد معلم الجزاء (لامدا 1 = 500( وعدد الطيات المستخدمة في 
الصلاحية المتبادلة (طية = 10). وبعد تشغيل النموذجء نقوم بدعوة عناصر الشيء. أما 
العنصر الأول -50101- فيعيد الاحتمالية الخوارزمية للنموذج في بيانات الصلاحية 
المتبادلة. وبالعنصر Sfullfit‏ يمكن دعوة التناسبية في البيانات بأكملها. 


cross$cvl 
cross$fullfit 
الحدول رقم 4.6‘ إحصائيات التناسب‎ 
(LASSO) فى تیم مختلفة لمعلم جزائى فى اللاسو‎ 
1 قيمة جزاء لامدا‎ 
5,000 1,000 500 100 2 
احتمالية صلاحية‎ 
-11,888.41 -11,568.63 -11,516.6 -11,496.82 -11,483.17 
التبادل‎ 


احتمالية خواريزمية 
لبيانات “duis‏ 11,443.92- 11,445.92- 11,475.19- 11,533.25- 11,827.07 


معاملات لا صفرية 23 23 19 16 8 


ونستطيع إعادة هذاء عدة مرات في إعدادات مختلفة من اللامدا el‏ وفحص 
vere bes)‏ الله للنموذج ذي معلمات جزاء مختلفة. وفي جدول رقم 64.6 نبين 
احتمالات خوارزمية للصلاحية المتبادلة بالنسبة للنموذج أعلاه» مع قيم اللامدا | 
التي استخدمناها أعلاه لبيان انكماش النموذج. ونرى أن الإحصائيات الدنيا 
للاحتمالية الخوارزمية المدرجة توجد في اللامدا 1 - 2. ويبدو أن هذا يقترح أن 
انكماشاً أقل - وليس أكثر - ينتج تناسبية أفضل في هذا النموذج. ولكن هذه النتائج 
القليلة» لا تسمح لنا باستنتاج مفاده أن 2 هو أفضل قيمة بالنسبة للامدا لتعظيم دقة 
خارجة عن العينة. وللقيام بذلك» علينا القيام بذلك كما تفعل خوارزمية ذات احتمالية 
قصوى» وذلك بتجربة قيم مختلفة» والتحرك أقرب فأقرب من الاحتمالية الخوارزمية 
الدنيا للصلاحية المتبادلة. 
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ويبدو أن هذا عملاً dt‏ يجب أتمتته» ومن حسن الحظء أن تم ذلك. وسيسمح 
لنا «بينلايزد» بإيجاد أفضل قيمة للامدا cl‏ بالدالة «0]1.1». كما تسمح LJ‏ هذه الدالة 
بتحديد الحد الأدنى والأقصى لقيم لامداء وستجد القيمة التي ستخفض الاحتمالية 
الخوارزمية للصلاحية المتبادلة إلى الحد الآدنى. ونحدد الحذ الأدنى في cO‏ ونسمح 
للامدا 1 بأن يصل مداه إلى 1,000 : 


bestfit<-optL1 (obama, ~Iinpopdenstageltl Stage1834+age6Sovert 
imdens+perwhite+ perasian+perblack+perlatint+edhigher+edhst+edlhs+ 
unempmale+Unempfem-+perpov_q+divorce2pert+samesexpertevprot 
10+hhsize+occprofman+medincthsdrop1619, minlambdal = 2, 
maxlambdal = 1000, fold = 10, standardize = TRUE) 


bestfit$lambda 


وهناء بعد إنجاز 21 LL SG‏ استقر البرنامج عند قيمة مثلى للامدا 1 هي: 
5و وكما تم ذكره cll‏ في هذه القيمة المنخفضة. سيؤثر معلم الجزاء في 
معاملات انحدارنا ch git LSE‏ على الرغم من رفعها من الدقة التنبؤية قليلاً. 

خلاصة 

يعد «اللاسو) أداة انتقاء متغير قوي» يستخدم في إيجاد مجموعة فرعية لمتنبئات 
cdo is‏ لديها - مجتمعة - قوة تنبؤية. وإن المتخصصين في التنقيب في البيانات 
يستخدمونها لتحسين JS‏ من بساطة (تقتير) النموذجء والقوة التنبؤية. ولسوء الحظء 
إن «اللاسو» ليس متاحا بعد في بعض حزمات التنقيب في البيانات السهلة elds Vi‏ 
ونتيجة لذلك,» بينا التقنية باستخدام لغة R‏ الحرة. 

وفي المثال» استخدمنا «اللاسو» للتنبؤ بنسبة التصويت في محافظات الولايات 
المتحدة التي آلت إلى الرئيس أوباما في انتخابات 2012. وقد حدد البرنامح BLS‏ 
سكانية أعلى» ونسبة أقل من السكان دون السنّ 18ء ونسبة أقل من البيض» ونسبة 
أعلى من السود. ونسبة تمثل درجات الكلية» ومعدل بطالة أعلى بين الرجال باعتبارها 
متنبئات جوهرية لحصة أوباما من الأصوات على مستوى المحافظة. 
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انحدار معامل تضخم التباين 

يعد انحدار معامل تضخم التباين أداة أخرى من أدوات التنقيب في البيانات التي 
تم تطويرها حديثاء من أجل تبسيط نموذج ماء من خلال انتقاء متغيرات (انتقاء سمة). 
وطور انحدار معامل تضخم التباين عام 2011 من قبل لين (Lin)‏ 9 وفوستر (Foster)‏ 
وأنغر (Ungar)‏ لاستخدامه تحديدا فى مجموعات بيانات ضخمة جداء خاصة تلك 
الكبيرة جدا (أعذاداً كبيرة من المتغيرات). وقد تم تطويرها باغتبارها Moa‏ عن 
الانحدار التدريجي وانحدار المجموعة الفرعية الأفضلء اللذين يعتبران مكثفين 
حاسوبيأء ومن ثم» يميلان إلى الاشتغال بشكل بطيء جدا. وأما طرق أخرى من طرق 
انتقاء السمة» مثل طالب الطريق المعمم (GPS)‏ فيشتغل على نحو أسرع ER‏ 
ولكنه يؤدي ثمناً في دقة تنبؤية متقلصة )2011 .(Lin, Foster, and Ungar‏ لقد صمم 
انحدار معامل تضخم التباين» بغية تسريع الانحدار التدريجي دون مقايضة كبيرة على 
مستوى الدقة. 

ويعد انحدار معامل تضخم التباين» خوارزمية متعددة المراحلء تمزج معأ 
تقنيات كانت موجودة (مثل انحدار تدريجي أماميء وقواعد استثمار (U‏ وتضيف 
عنصرها الفريد. إنه اختلاف حول انحدار تدريجي أمامي (لأنه مع عدد كبير من 
سمات المرشح» تصبح الإزالة الراجعة غير كافية للغاية). وسنمر سريعا على ما تقوم 
به الخوارزمية بالضبط. ونبين ما تستطيع تنفيذه باستخدام R‏ 

إن الفائدة الرئيسة لانحدار معامل تضخم التباين» يتمثل في تقليص مقدار 
الحوسبة التي تحدث عند تشغيل انحدار تدريجي. ولكن» BUI‏ يتطلب الانحدار 
التدريجي حساباً رياضياً كثيراً؟ ثمة سببان اثنان وراء ذلك: 

أولاً: لأن في JS‏ تكرار أو خطوة في بناء النموذج» تأخذ بعين الاعتبار JS‏ متغير 
مرشح من أجل إدراجه. وهذا يعني أن في كَل خطوة. يأخذ التدريج بعين الاعتبار 
عدة متغيرات» وبما أنها تنجز عددا كبيرا من الخطوات» فهي تقوم بهذا عدة مرات. 
وفي المقابل» يدير انحدار معامل تضخم التباين متغيرات المرشح مرة واحدة فقط. 

انياً: في JS‏ خطوة» يولّد التدريج تقديرات بالنسبة إلى JS‏ معلم. وهي لا تشغل 
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انحداراً واحداً فقطء وإنما العديد من الانحدارات بقدر وجود متغيرات المرشح في 


كل مرحلة. ويلتف انحدار معامل تضخم التباين على هذا المشكل الثاني من خلال 
استعمال ما يسمى بالانحدار الأمامي على مراحل .(Stagewise)‏ 


ويبدأ انحدار معامل تضخم التباين بنموذج صفري - أي بنموذج يضم فقط 
اعتراض (Intercept)‏ واحد - ويحسب بقايا من هذا النموذج. ثم ينتقي المتغير 
الأول في قائمة المتنبئات المحددة be‏ (التي يعد E‏ إلى يج وا E‏ افيا 
هنا)» وتعمل على تراجع هذه البقايا في هذا المتغير. وإذا ما استجاب المتغير إلى 
بعض المعايير التي تسمح بإدراجه» فسيدخل في النموذج» وتحسب بقايا جديدة؛ 
وإلاء فإن الخوارزمية تنتقل إلى المتغير الموالي. 


وبالتالي» إن في كل خطوة على حدة. لا تتراجع إلا البقايا من المرحلة السابقة. 
كبير فى الحوسبة. وعوض تشغيل انحدار كامل» وحساب كل التقديرات المعلمية: 
يقوم انحدار معامل تضخم التباين - في الجوهر - بحساب فقط سلسلة من 
الارتباطات ols‏ المتغيرين (Bivariate)‏ 


ومع «SUS‏ هناك صعوبة بحصوص هذا cel > I‏ ذلك Ob‏ نسب -] (t—Ratios)‏ 
المقيّمة لهذه الارتباطات ذات المتغيرين» قد تتحيز ضد المتغيرات التي لها خطية 
متعددة (Multicollinearity)‏ كبيرة مع المتغير ات التي سبق انتقاؤها للنموذ ذج. 
ونتيجه لذلك» تتحيز خوارزمية ندريجي أمامي (eile‏ في alal‏ متغيرات 
slat.‏ غير مترابطة مع المتغيرات الموجودة سلفاً في النموذج = Pe‏ انتقاء ما قد 
کون مھا کا من أجل هذاء لا بد من إحداث تصحيح ماء لإزالة هذا التحيز. 

إن التصحيح هو ما يمنح انحدار معامل تضخم التباين اسمه؛ فانحدار معامل 
تضخم التباين» يعدل نسب-] لتفسير الخطية المتعددة من خلال استعمال «معامل 
تضخم التباين» لكل متغير بما أنه يؤخذ بعين الاعتبار في هذا الإطار. ولكن بما أن 
لخدا امامل تفوت ee nee ee‏ علو د احم aad‏ بجا تفي 
Js‏ ا في النموذج. فإن ذلك id et, Ol s ay F‏ 
انا أمامي على مراحل في المقام الأول. ويتجلى الحل في تجنب حساب 
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معاملات تضخم التباين باستعمال مجموعة البيانات كاملة. وفي المقابل» تتم معاينة 
مجموعة فرعية صغيرة من الحالات بشكل عشوائي» وتقدر معاملات تضخم التباين 
من خلال هذا القدر الأصغر من البيانات. 

PAF‏ بم بتضحم احتمال ل النوع 1 بحصوص اختبارات فرضية 
متعذددة. وبتعبير سيطء زل إجراء اختبار لدلالة إحصائية. سمح بإمكانية رفض 
Ca‏ حقيقية es)‏ النوع 1)ء ثم نختار احتمال وقوع ذلك 
بتحديد الفا. ولكن» كلما اجرينا اختبارات فرضية متعددة» تزداد احتمالية حدث نادر. 
doling of‏ بغي تطيق is gine‏ الغا |S gle Ugend‏ تفار :غر sels‏ 

PAARE E ae 0+‏ 
ولكن cr‏ هذا إشكالاً إذا كان ء عدد الاختبارات ضخمة. nd‏ من 
507 

وفي وافع cY‏ إن انحدار معامل تضحم الا vel er] es‏ يدعى stele‏ 
استثمار (Alpha- Investing Rule) Lai‏ الذي يقيم er Se‏ بين اختبار فرضية 
pee ye‏ غير oe‏ (الذي Cc‏ العديد من الأخطاء من النوع 1(« وتطبيق قاعذلة 
بونفيرونى (التى تميل إلى إزالة متنبئات محتملة tiege‏ انظر Foster and Stine‏ 
8.. وتتلخص الفكرة في كون LI‏ نبدأً «بثروة» معينة» أو بترخيص لخطأ النوع l‏ 
(لنقل 0.05 أو 0.10). ثم نقوم بعد ذلك بإنجاز اختبار فرضية ما. وإذا ما تم رفض 
الفرضية الصفرية أو العدمية» فسنقوم بالزيادة في ثروتناء وإذا أخفقنا في رفضهاء 
فسننقص منها . وبالنتيجة» تستنزف الثروة» ولا يسمح من ثم» بمزيد من اختبارات 
الفرضية. إن المستوى المهم للإدراج - فى الوقت نفسه - pay‏ باعتباره دلالة ثروة 
حالية» وعددا للتكرارات منذ الرفض الأخير للفرضية الصفرية. وقد تم عرض هذا 
الإجراء لمراقبة احتمالية حالات الرفض الكاذبة للفرضية الصفرية بشكل فعال 
.(Foster and Stine 2008)‏ 


إذن» إن انحدار معامل تضخم التباين» يشغل كل متنبئ مرشح مرة واحدة فقطء 
وتعترف به إلا في حالة تجاوزه - إلى حد ما - شريط dle‏ للإدراج. ولكن. ألا يعني 
هذا أن الخوارزمية يمكن أن «تفقد» متنبئات مهمة؟ يؤكد LJ‏ منتجو الخوارزمية. 


150 


عكس WS‏ إذ في حالة ما إذا كانت المتغيرات التنبؤية العالية غير مترابطة مع البقايا 
(Residuals)‏ فإن قاعدة استثمار ألفا ستضمن ol‏ النموذج برمته سيكون تنبؤياء 
على الرغم من أنها لا تضمن دخول أي من المتغيرات» النموذج في حد ذاته. وينصح 
مستخدمو هذه التقنية بإيلاء الأولوية للمتغيرات الأكثر أهمية بعدهم Nol‏ ويزعم 
مؤلفو البرنامج - ولغايات تنبؤية - عدم أهمية دخول متغير مترابط أو متغير آخر 
بشكل عالي» النموذج. وورد في كتاباتهم أنه «إذا كان بالإمكان تنظيف هذه الأهمية 
أو حجبها من لدن متغيرات أخرى» فسينعدم - ولغايات تنبؤية - أي فرق بين المتغير 
وبدائله» ومن ثم» عدم إمكانية اعتبار أي منها حالة «صادقة» (Lin, Foster, and‏ 
-Ungar 2011, 239)‏ ولن يتم فقدان «متغيرات مهمة بشكل Mele‏ ولن يتم فقدان 
متنبئات إشارة عالية» في ظل انعدام متغيرات أخرى مترابطة بها ارتباطا جوهريا. 


لقد تم إظهار خوارزمية انحدار معامل تضخم التباين» أسرع جوهرياً من 
الخوارزميات المنافسة (ويقترب طالب الطريق المَعَّمم أكثر)» وأفضل في مراقبة 
معدل الاستكشاف الكاذب الهامشي (ولو أنها ليست جيدة مثل الانحدار التدريجي. 
أو الخوارزمية الأمامية - الراجعة [FoBa]‏ أو طالب الطريق المعمم)؛ فلديه أداء 
أفضل خارج العينة Bo)‏ تنبؤية أكثر) من طالب الطريق المعمم» واللاسو. وهو جيد 
مثل «الفوبا» والانحدار التدريجي. 


تشغيل انحدار معامل تضخم التباين: مثال باستخدام +1 


في حدود علمناء إن الطريق الوحيد الذي يتم به تنفيذ انحدار معامل تضخم 
التباين» هو عبر حزمة R‏ لمعامل تضخم التباين» الذي كتبه دونغيو لين (Dongyu‏ 
Lin)‏ )2011( ورسخه. أحد مطوري الطريقة. وننجز مثلا من أمثلة انحدار معامل 
تضخم التباين مستخدمين مجموعة بياناتنا الخاصة بانتخابات 2012 على مستوى 
المحافظة. أما بخصوص مثالنا الذي يعرض «اللاسو»» فسننمذج حصة أوباما من 


اللأصوات على مستوى المحافظة. 
وسنقوم NGI‏ بتحميل الحزمة من الرابط: chttp://cran.r-project.org‏ وتثبيته 
2 ذاكرة شغالة: 
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Install. packages (“VIF”) 
Library (VIF) 
معامل تضخم‎ OY وبعد ذلك» نحوّل مجموعة من المتنبئات إلى مصفوفة»‎ 
(R’s باعشارها شين مستقلا.بوستكون إدارة‎ X's cS glo أفضل إذا ها‎ farts splot 
المتغيرات حرف 2 باعتبارها‎ JS كافية لهذا الغرض. ولاحظ هنا أن لدى‎ chind) 
ونقوم بذلك للدلالة على أن لدينا فارقاً معيارياً عن متوسط القيمة‎ (Prefix) سابقة‎ 
من القيام بهذا لوضع‎ fe لکل المتنبئات التي نحن بصدد استعمالها. ولا‎ (z-score) 
w$ 
كل المتغيرات على مستوى واحد لكي يكون بالإمكان تقييم مساهمتها النسبية في‎ 
(Feature daw تفسير التباين بشكل مناسب. وهذا ضروري بشكل عام في أي محدد‎ 
كى لا يكون هناك تحيز فى اختيار الخوارزمية. ومع ذلك» بينما تقعّد لك‎ Selection) 
- حزمة من قبيل بينلايزد» المتغيرات بمثابة خيار» يكون لزاماً عليك القيام به سلفاً‎ 
وعلى نحو سابق لاوانه - في ظل معامل تضخم التباين.‎ 
x<-cbind(zlnpop, zlnpopdens, zageltl8, zagell834, zage3564, 
zagegt65, zperwhite, zperblack, zperamind, zperasian, zperpacisl, 
zperother, zpermultirace, zperlatin, zhhsize, zlthsed, zhsed, zsomecol, 
zbached, mastersed, zprofed, zdoced, zmalunemp, zmedinc, zperpov, 


zimdens, zprofmanocc, zdivorce2, zsamesex, zhigheredpop) 
ela وقد جمعنا کل ات مر شحنا صمن مصموفة» تحن مستعدين‎ ON 
معامل تضخم التباين على النحو الآتي:‎ 


modl<-vif (zobama,x, w0 = 0.05, dw = 0.05, subsize = 200, trace = True) 


ویولد هذا شيئاً يدعى «مود 1» )1 (mod‏ سيتم داخله تخزين نتائج عملية انتقاء 
المتغير لمعامل تضخم التباين. Oly‏ خيار W‏ تخبر البرنامج بالثروة الأولى التي نريد 
أن ينفقها النموذج. ومن أجل نموذج أكثر محافظة التي تنتقي متغيرات أقل» سنحدد 
هذه القيم في مستوى منخفض. وفي المقابل» إن تحديد الثروة الأولى أو تغيير في 
الثروة» في مستوى أعلى» سيسفر عن إدراج مزيد من المتغيرات. كما يخبر الحجم 
الفرعي (Subsize)‏ البرنامج بحجم العينة الفرعية العشوائية التي نحسب فيها معامل 


[32 


تضخم التباين لكل متغير على lipo pede bles‏ إن «trace = TRUE»‏ يمكننا 
بالاطلاع على ما يقع عندما يدير معامل تضخم التباين مجموعة المتغيرات البالغ 
عددها الثلاثين» التي قدمناها من أجل التقييم. وإن القيام بذلك» يولد المُخرج المبين 
في الشكل رقم 5.6. 
ويمكن رؤية وجود30 سطراء واحد [SU‏ متغير من متغيرات المتنبئ 30» 9 وخمسة 
أعمدة. وإن العدد الآول في العمود (بعد الرمز [1)) يخبرنا - ببساطة - عن المتغير 
الذي سيقيمه البرنامج. أما الأعمدة الأخرى فتخبرنا بما يلي : 
1. الثروة الحالية (قبل تقييم المتغير الحالي) 
2. مستوى الاختبار الحالي (الذي - تذكّر - يتغير مع JS‏ متغير جديد, استناداً إلى 
ما إن كانت المتغيرات القبلية قد وضعته ضمن النموذج أم (Y‏ 
3 إحصائية-] بالنسبة إلى المتغير قيد التقييم 


4. قيمة-مص بالنسبة إلى اختبار -] هذا. 


وماذا يعني هذا كله؟ طيب» تأمل» ما يحدث في السطرين الأولين؛ ففي السطر 
الأولء لدينا الثروة التي اخترناها كنقطة انطلاق: 0.05. Sy‏ يتم إدراج المتغير في 
النموذج» فلا بد أن يكون ذا دلالة في0.25 = a‏ (أو الثروة الحالية مقسومة على 2). 
إننا نرى أن نتيجة اختبار -) هي 622.77 وهي نتيجة أقل بكثير من 0.001>م (مقربة هنا 
إلى 0). وهذا يعني أن المتغير الأول الذي قدمناه لمعامل تضخم التباين» zinpop‏ 
(تقعيد-z»‏ للخوارزمية الطبيعية للكثافة السكانية)» فسَرثٌ تبايناً BE‏ لإدراجه في 
النموذج. وفي السطر 2» نرى النتيجة: ارتفعت ثروة النموذج» في حين تم تحديد 
القيمة الحرجة (Critical Value)‏ لإدراج المتغير الموالي في مستوى أقل انخفاضاً 
(في0.18 = (a‏ ومرة أخرى» إن إحصائية-] بالنسبة إلى المتغير الثاني عالية جدا 
(6.953)» ويقبّل المتغير في النموذج. 
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> modi<-vif(zobama,x, w0=0.05, dw=0.05, subsize=200, trace=TRUE) 

[1] "1 0.05 0.025 22.771554296814 0” 

f1] "2 0.075 0.01875 6.95294747856659 3.57736062994718e-12" 

[1] “3 0.10625 0. 0177083333333333 5.72354728131594 1.04322517291422e-08" 

[1] "4 0.138541666666667 0. 0173177083333333 5.59771973911076 2.17189479734259e-08" 
[1] "5 0.171223958333333 0. 0171223958333333 4.83686222030236 1. 31904790978687e-06" 
[1j "6 0.2041015625 0. 0170084635416667 0. 828564198610133 0. 40735105353865” 

7 0.187093098958333 0. 0133637927827381 27.0053667414444 0" 

[1} “8 0. 223729306175595 0. 0139830816359747 3.80020276492099 0.000144577740259999" 
9 0. 25974622453962 0.0144303458077567 13. 5027750931116 0" 

{1} “10 0. 295 315878731864 0. 0147657939365932 5.57551515371425 2.46798421699168e-08" 
{1] "11 0. 330550084795271 0.0150250038543305 0. 793302156109217 0.427601800931797" 
]1[ “12 0.31552508094094 0. 0131468783725392 0.759470464593518 0.44757117560337" 

[1} “13 0. 302378202568401 0. 0116299308680154 5. 24342826272885 1. 57620108520717 e-7 ° 
[1] "14 0. 340748271700385 0. 0121695811321566 1.44653810954956 6031677" 

[1] "15 0. 328578690568229 0. 010952623018941 10. 5970808072016 0" 

]1[ "16 0. 367626067549288 0.0114883146109152 11. 6686643604467 0" 

[1} "17 0.406137752938373 0.0119452280275992 5.68462572632097 1. 31099446853966e-08" 
f1} "18 5 713 0.0123386812475215 4.9769822834295 6. 45832303414196e-07" | 
[1] "19 0.481853843663252 0.0126803643069277 6.14694924012578 7.89873944029296e-140" 
[1] “20 0. 519173479356324 0.0129793369839081 2.26986290639511 0.0232159023444118" 
[1] "21 0. 506194142372416 0.0120522414850575 0. 498836920414769 0. 6178942754 30784" 
[1] “22 0.494141900887359 0.01123049774744 1.41894577497042 0.155914825535024" 

[1} "23 0. 482911403139919 0.0104980739813026 18. 4175936639235 0" 

[1] "24 0. 522413329158616 0.0108836110241378 3.98169787457411 6. 84247222204615e-05" 
[1] “25 0. 561529718134478 0.0112305943626896 0. 531800210693972 0. 594864376832877" 
[1] “26 0. 550299123771789 0.0105826754571498 0. 570307523144667 0. 568469139224964" 
[1] "27 0. 539716448314639 0.00999474904286369 6. 86589616654364 6. 60760335335908e- 123 
[1] "28 0. 579721699271776 0.0103521732012817 2. 75214879766392 0.00592056128820428" 
[1] “29 0. 619369526070494 0.0106787849322499 2.24618282745469 0. 465922997211378" 
[1] "30 0. 608690741138244 0. 0101448456856374 1.159582223814 0. 218041876399" 


5 E E ۰ ٠ Oe ee e ~ à 
R الشكل رقم 5.6: النتيجة تظهر انتقاء متغير من انحدار معامل تضخم التباين في‎ 


وفي المقابل» نستطيع رؤية ما يقع عندما يخفق متغير ما لجعله ضمن النموذج 
من خلال النظر إلى مايقع قبل متغير 6» وبعده. و لاحظ أن ثروة النموذج ترتفع بالنسبة 
إلى JS‏ متغير من 1 إلى 6. وتذكر أن هذه هي ثروة النموذج قبل إخضاع المتغير 
الجديد إلى التجربة. والمتغير 66 لا يضعه في النموذج (التي نستطيع الإفصاح عنه من 
خلال النظر إلى قيمة-) 0.829 وقيمة-] 0.407( ولاحظ أنه بالنسبة إلى المتغير 7 
تتراجع الثروة قليلاً (من 0.204 إلى 0.187). وبعد إدارة متغيراتناء على ماذا سنحصل 
من حيث تناسبية النموذج؟ في الحقيقة» إن «روتين» معامل تضخم التباين» لا يتناسب 
مع النموذج بالنسبة إليك؛ بل على العكس من ذلكء إنه يخبرك عن المتغيرات التي 
يجب عليك ضمهاء والمتغيرات التي يستوجب عليك رفضها. إنه - إذن - محدد 
سمة أصلي. 
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ولرؤية المتغيرات المختارة» نستعمل ما يلي : 
mod 1$select‏ 
وتعود خ1: 
}1{ 21 7543 8 109 23191817161513 2724 28 
وهذا يخبرنا عن هوية أعداد المتغيرات - 19 في المجموع - التي اختارها 
النموذج. ونرى - من خلال فحص القائمة - أن العديد من المتغيرات مفقود: 


(all: 
ln(forwla = zobana ~ X) 


Coefficients: | | | 
(Intercept) 2210  xèzinpopdens 1ل[‎ 0014 rage 
01990-01197107 006-01 -2. 98$e-02 3, 5840-02 1,.275¢-01 
Xaaperehite  Xperblack —-Xaperamind  Xlaperasian X2zpermultirace —-x2zper latin 
2. 3540400 -1.306600 «4, 110-01 1.71-01 -,679¢-01 1,17180 
22211511 = al thsed yazhsed  Xzsorecol ل‎  xłzaalunerp 
“1720-01 - 1010-01 -1,0090-01 -1.117-01 2, B30 2,439e-01 
Radi —Xdzprofmanoce  Xzdivorce? 
1. 008e-01 -1, 4798-01 -4.802-02 


الشكل رقم 26 النتيحة من انحدار معامل تضخم التباين في R‏ 


المتغيرات» 6 111 20114.12 2.2221 2926 30. ومن المهم تذكر أن 
انتقاء متغيرات بواسطة انحدار معامل تضخم التباين يتوقف - إلى حد ما - على 
الترتيب المعتمد في إدراجها. إن معامل تضخم التباين يجرب كل متغير مرة واحدة 
فقط» ويحاول ببساطة تعظيم القوة التفسيرية دون الإفراط في التناسب. ومن ثم. إذا 
كنا نحاول ضمان اختيار الخوارزمية للمتغيرات «الحقيقية)» فسيكون تشغيلها عدة 
مرات فكرة جيدة من خلال تغبير تر تیب المتقيرات فق كل هرة. 

وإذا ما قلصنا قيمة معلم dW‏ فسنقلص عدد المتغيرات المقبولة لدى النموذج. 
وذلك لأن القيمة الحرجة المدرجة في النموذج تتوقف على ثروة النموذج. وإن 
إضافة ثروة أقل إلى رفض فرضية صفرية ماء يؤدي إلى قيم حرجة من أجل إدراج أقل 
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انخفاضاًء ومن ثم من أجل سمات منتقاة أقل. oS ee ae‏ 
د سوم سداد تا . ولكن» هذا المَعلم لا يفضي سريعاً إلى نموذج أكثر 
تقتيراً. وعندما تُخفض من سل إلى 0.01« و0001 .0 ننتقي متغيرات 1796185618 
على التوالي. أما البديل fronds SV‏ في تقليص الثروة الأولية E‏ 
أخرىء على المرء - بانتقاء المتغيرات هذه - تحديد WO‏ على نحو منخفض جدا قبل 
وبعد تسوية المتغيرات من أجل الإدراج نشغل - ببساطة - نموذجاً خطيا 
بالاستعانة فقط بتلك المتغيرات المنتقاة. ونشكل يدويا مصفوفة» تضم فقط 
المجموعة الفرعية لمتغيرات منتقاة» وبعدها تشغيل نموذج خطي في هذه المجموعة 
الفرعية. ويظهر مخرج انحدار R‏ في الشكل رقم 6.6. 
X2<-cbind (zlnpop, zlnpopdens, zageltl8, zageltl834, zage3564,‏ 
zperwhite, zperblack, zperamind, zperasian, zpermulti-race, zhhsize,‏ 
zlthsed, zhsed, zsomecol, zbached, zmalunemp, zmedinc, zprofmanocc,‏ 


zdivorce2) 


Mod2<-|lm(zobama~X2) 


قد انتفى معامل تضخم التباين» المتغيرات التي سبق لنا أن لاحظنا أهميتها في 
تنبؤ حصة أوباما من الأصوات على مستوى المحافظة: الكثافة السكانية» نسبة السكان 
غير الإسبان من البيض» ونسبة السكان السود» ونسبة البالغين الشباب في السكان. 
ومعدل البطالة بين الرجال. وهكذاء تنتج هذه الخوارزمية الناجعة للغاية نتائج» تتوا 
بشكل كبير مع نتائج النماذج التي رأيناها من قبل . 


وكلما مضى توسع عالم التنقيب في البيانات قدماً على قدم وساق» مولداً - إلى 
E - NI‏ جديدة» يكون الباحثون قد طوروا - مع ذلك - تقنية أخرى. 
تحسن ظاهريا انحدار معامل تضخم التباين. وهذه الطريقة الحدثية - انحدار معامل 
تضخم التباين قوية - تعالج ميل انحدار معامل تضخم التباين «المعياري» لأن يصير 
حساسا لحضور حالات شاذة فى البيانات )2013 .(Dupuis and Victoria- Feser‏ 
ويعد انحدار معامل تضخم التباين طريقة مهمة لانتقاء المتغيرات على نحو ناجع 
لتعظيم دقة تنبؤية. 
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الفصل wld)‏ 
انناج متغيرات جديدة 


إن المتخصصين المتمرسين في التنقيب في البيانات» يخبرول الوافدين الجدد 
على الميدان باستمرار بأن ما يستغرق معظم الوقت عادة» ويتطلب العناية الكبرى في 
التنقيب في البيانات» ليس هو إدارة التحليل (مرحلة النمذجة)» بل هي المرحلة التي 
تسبق تحليل البيانات عندما ينتج الباحث المتغيرات أو السمات التي ستدخل ضمن 
نماذج. ويرجع سبب ذلك - جزئياً - إلى استخدام الباحثين معرفتهم بالموضوع 
لضمان عدم إهمال متغيرات هامة. كما يعمل الباحثون أيضا على تشكيل النسب التي 
JAS‏ هامة من حيث التصور (التكلفة للقدم المربع الواحد. عمليات إطلاق الاد 
بحسب 100,000 نسمة» وهكذا)ء وقد تظهر متنبئات قوية تجريبياً. وفوق هذاء مهما 
يدرك متخصصو التنقيب في البيانات إمكانية أن يكون شكل المتغيرات مهم بالنسبة 
إلى التحليلات التي تلي» فإن عليهم الأخذ بعين الاعتبار تحولات ممكنة لمتغيراتهم 

وتهم الحالة الأكثر ساطة e‏ التقعيد أو المعيارية (Standardization)‏ 
وقي بعضن الطرق:> لكن لبس كل الطرق:-ستفضل اللخوارزمية؛ المتغيرات التي 
تمتلك فئات عديدة (أو مجموعة كبيرة من القيم)ء مثل العمر بالسنوات» أو الدخل 
بالدولارات» باعتبارها أكثر تنبؤأ أو ترابطأ PP Gs eos rises‏ 
مجموعه ة أصغر من القيم» من ky‏ الحالة dsl Yi‏ ونقصد بكلمة «تفضل) أن 
البرنامج سيعتبر متنبئاً ماء ذا فئات عديدة» أو مجال واسع. متنبئاً أكثر قوة من متنبئ لا 
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يتوافر إلا على فئات أقل. وينبع هذا التحيز من الطريقة التي نقدم بها بياناتنا» عوض 
عكس البنية الحقيقية فى البيانات. على سبيل المثالء قد نختار تمثيل الدخل 
بالدولارات» أو ات مسجلة. وقد نمثل العمر بالسنوات أو نمثله ضمن 
مجموعات مثل المراهقين (العشرات)» والعشرينات» والثلاثينات» وهكذا. وستتغير 
Be‏ المتغير بالنتيجة بحسب نوع الاختيارات التي نتخذهاء مخلفة أحياناً تأثيراً في 
الأهمية التنبؤية الظاهرية لهذا المتغير المرتبط بمتغيرات أخرى. ويكمن الحل في 
تعريل الات J tat gall‏ برع جات gad‏ ا ذال olds‏ 
مشترك» وهي Hy re les‏ ا 


إن نوع التقعيد الأكثر شيوعاًء يحول المتغيرات المستمرة (سواء قيست باعتبارها 
متغيرات فاصل زمني/ نسبة أو متغيرات ذات مستوى عادي) إلى فوارق معيارية عن 
متوسط القيمة .(z-scores)‏ ولهذه الفوارق المعيارية متوسط الصفرء وانحراف 
معياري قيمته واحد. ولهذاء مهما بلغ الفرق في محتواها (العمرء والدخل. ومعدل 
الذكاء» وساعات العمل بالأسبوع)» بعدما تم تقعيد معدلاتهاء فسيكون لدى 
المتغيرات المحولة المعدل أو المتوسط نفسه» والانتشار نفسه. 


العمر بالسنوات» والدخل بالدولارات» ويحوله أو يغير تشفيره إلى مجموعة فئات 
مميزة ومنظمة» على سبيل المثال» إنتاج فئات عمرية مثل 10-0( 20-11. 30-21 
وهكذاء إلى أن تصل إلى أعمار تتراواح بين 80-71. ويعرف هذا «التقطيع» للمتغيرانف 
المستمرة بالتنقيب في البيانات باعتباره عملية توزيع خانات (Binning)‏ أو تفريداً أو 
(Discretization) PA‏ وإلى جانب إنتاجه للنسب والمتنبئات التي تم تقعيد 
معدلاتهاء فإن هذا التقطيع يعد الخطوات الأكثر انتشارا في عملية معالجة البيانات 
مسبقا قبل تشغيل نمودج be‏ 

وحسب الانطباع الأول فاو ان تين وا هف ما مثل العمر بالسنوات. 
إلى متغير متميز مثل فئة عمرية» يفترض ضمنا فقدان المعلومات» أي عدم وضوح 
التفاصيل الدقيقة. هذا صحيح» ولكن توزيع الخانات لها ميزه التعويض التى تجعل 
من السهل هذا OUI pd‏ اللا (Ager dass) She‏ من مي dows pkey‏ 
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سنستعمل البيانات المأخوذة من مسح المجتمع الأميركي للتنبؤ فيما إذا كان 
شخص ما يمتلك تأمين صحى» مستخدمين خصائص ديموغرافية متعددة. ونشكل 
gly ae gaa.‏ لارا هده مسال خرن الاك E Garp USN‏ 
اا الاققاض غير Sul‏ ا meee‏ لها قله السكان 
(حوالي 14./)» سنبقي على جميع الحالات غير المؤمّنة في العينة» على أن تكون 
عينة عشوائية مأخوذة من أكبر عدد من الأفراد المؤمّنينء بغية الحصول على تقسيم 
0. وإننا نقوم بذلك لأنه في حضور تصنيف نتائج غير متوازنة بشكل كبير» تعمل 
الخوارزميات - فى الغالب - على تصنيف كل الحالات باعتبارها حالات تنتمى إلى 
فئة أغلبية لتقليص معدل الخطأ في التنبؤ. وتؤدي الموازنة في البيانات إلى نموذج 
carl‏ واختبار أفضل من دقة تنبؤية. 


ندير انحداراً لوجيستيا يتنبأ بوضعية التأمين الصحي» بحيث يحمل ترميز 1 إذا ما 
كان يفتقر فرد ما إلى تأمين صحىء وترميز 0 إذا ما كان موّمَّنا. ويدخل ضمن المتنبئات 
كل من الدخل» والعمرء والحالة الاجتماعية» والعرق» والجنوسة (Gender)‏ وملكية 
المنزل» والتحصيل التربوي» ومكان الميلاد. والخدمة العسكرية» وحالة القوة 
باعتبارهما متغيرين مستمريين. ولدى نموذجنا شبه مربع مكفادين (McFadden’s‏ 
Pseudo-R’)‏ 0.202 وتسجيل احتمال (Log-Likelihood)‏ يصل إلى 
7 . ويبين الجدول رقم 1.7 مصفوفة الارتباكء (التي تجدول الفئة 
المتوقعة» مقابل الفئة الحقيقية للنتيجة)» في حين يمثل الشكل رقم 7.1 تصورا 
للأهمية النسبية لمتغيرات مستقلة بالنسبة للتنبؤ. وكلاهما يمكن توليدهما بشكل الى 
بواسطة الحزمة الإحصائية للعلوم الاجتماعية (SPSS)‏ بعد تشغيل انحدار لوجيستي. 


الحدول رقم 1.7: مصفوفة الارتباك للانحدار اللو جيستى باستخدام بيانات 
متوازنة (الحزمة الإحصائية للعلوم الأجتماعيةء (SPSS‏ 


مؤمن حقيقى 78,974 32,409 70.90/ 
غير مؤمن حقيقى 31,242 79,788 16 
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0 رقم 1.7: أهمية المتنباً بالنسبة إلى الانحدار اللوجيستي باستخدام بيانات 
زنة (الحزمة الإحصائية للعلوم الاجتماعية» (SPSS‏ الهدف: غير مؤمن. 


إن معدل الدقة بشكل عام هو ATLA‏ إذ يعمل بحق» وعلى نحو مماثل» على 
تصنيف إيجابيات صادقة» وسلبيات سابال س النتيجة. وبحسب نتائجناء 
يمثل دخل الأسرة» المتغير الأكثر تنبؤاً في نموذجناء متبوعاً بمكان الولادة (متغير 
وهمي (Dummy Variable)‏ بالنسبة إلى الأفراد المولودين في heya‏ وحالة 
القوى العاملة» والتحصيل التربوي. sg Vo‏ الحدر مهما == - في تنبؤ تغطية 
التأمين الصحي؛ بل هو معارض للحدسء بما أننا ندرك gal Ob‏ في بعض برامج 
التأمين الصحي (أبرزها الرعاية الصحية) يقوم أساساً على العمر. كما أن المساعدة 
الطبية للفقراء» وبرنامج الدولة للتأمين الصحي للأطفال (SCHIP)‏ متاحة أيضاً 
للأفراد - جزئياً - على أساس العمر (وجزئياً على أساس الدخل). وحسب مخرج 
انحدارنا (غير مبين)» يملك العمر علاقة ة سلبية معتدلة مع حالة التأمين الصحي. 
وربماء يتجلى يتجلى المشكل في عدم خطية العلاقة بين العمر وحالة cll‏ الصحي. 
وربما ثمة احتمالات مختلفة بشكل مميز للتأمين لفائدة أشخاص في مجموعات 
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تغريد تل 2 5 

إن أشجار التقسيم - المعروفة أيضاً بأشجار القرار أو أشجار التصنيف - تعد 
خوارزميات تنبؤية» تستكشف الطريقة الأكثر نجاعة التي من خلالها يتم فصل 
الحالات بالنسبة إلى old‏ نتيجة ما. وسيتم وصفها بتفصيل في الفصل العاشرء غير 
أننا سنركز حالياً على كيفية إمكانية استخدامها لوضع متغيرات مستمرة في خانة أو 
تمييزها من اجل تحسين تنبؤ نتيجة ما. 

ولتصنيف الحالات» تقسّم أشجار التقسيم حالات حسب JS‏ قيمة لكل متغيرات 
التنبؤ المرشحة» والمحددة من قبل الباحث؛ فتجد ذلك التقسيم الذي يفصل - بشكل 
أفضل - الحالات إلى فئات النتيجة قيد البحث. وبإيجادها هذا التقسيم المثالي. 
تواصل إعادة هذا الإجراء إلى أن تنتتج مجموعات متجانسة من حيث النتيجة» أو إلى 
أن يصدر الباحث تعليماته بإيقاف البرنامج. 


عموماء تأخذ أشجار التقسيم عدداً كبيراً من متغيرات مترشحة لدى اختيارها 
مكان التقسيم» ولكن يبقى عدد المتغيرات المستقلة التي تستخدمها الخوارزمية من 
صلاحية الباحث. وبعد ذلك» سيقسّم البرنامح hä‏ على هذا المتغير. وسيجد هذا 
جو الواقع - النقاط الفاصلة (Breakpoints)‏ في المتغير على مستوى علاقته 
بالنتيجة. ومن ثم» إذا وجدت لا خطيات (Nonlinearities)‏ معقدة بين متنبئ مستمر» 
ومتغير نتيجة ثنائي» فستكون أشجار التقسيم G pb‏ ممتازة لإيجادها. وتعد «الأشجار) 
التي تنتج عن تطبيق شجر التقسيم على هذا النحوء خانات لقيم المتنبى. 

في مثالناء نحاول تنبو عدم وجود تغطية التأمين الصحي» ونشك في إمكانية أن 
يكون نسبة العمر تنبؤية بشكل كبير» بل نرى أن العلاقة بين العمر والحالة الصحية غير 
خطية. ومن ثم» نستعمل شكلا خاصاً من أشكال شجرة التصنيف المعروفة مربع 
كاي للكشف عن التفاعل التلقائي (CHAID)‏ المشغل في إحصائية الحزمة 
الإحصائية للعلوم الاجتماعية (SPSS)‏ لفحص هذه العلاقة. وتوجد النتائج ملخصة 
في الجدول رقم 2.7. 


وتقترح الشجرة طريقة لخلق مجموعات عمرية مثالية بالنسبة إلى تنبؤ حالة 
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التأمين الصحي» بحيث يضم الصنف العمري الأول الذي تم إنتاجه. أشخاصاً تتراوح 
أعمارهم بين 8-0 في حين تضم الخانة الثانية أشخاصاً تتراوح أعمارهم بين 17-9 
وأما الخانة الثالثة» فتضم أشخاصاً تتراوح أعمارهم بين 24-18 وهكذا. وإن فحص 
مدى تغيير احتمال عدم كون الشخص bea pe‏ صحيا عبر هذه الفئات العمرية» يخبرنا 
بمدى لا خطية العلاقة بين العمر وحالة التأمين. وفي هذه البيانات (التي - تذكر - 
تمت موازنتها من حيث النتيجة)» يكون الاحتمال النسبي لكون الشخص غير مؤمن. 
منخفضة لدى SUB‏ بينما يرتفع بشكل كبير بين الشباب الذين تتراوح أعمارهم 
بين 30-18. Li}‏ نشهد - إذن - انحدارا بطيئا في هذا الاحتمال» يشمل باقي مرحلة 
البلوغ. وفي المجموعة العمرية الكبرى (الذي حددته الحزمة الإحصائية للعلوم 
الاجتماعية في 63 عاما)ء يتراجع احتمال نسبة الأشخاص غير المؤمّنين. 


وباختصارء إن العلاقة الحقيقية بين العمر واحتمال عدم كون الشخص Lage‏ 
علاقة لا خطية» أي ترتفع وتنخفض عبر الطيف العمري. وفي السابق» لما أدخلنا 
العمر باعتباره متغيراً مستمراً في انحدارنا اللوجيستي» لم نستطع وضع اليد إلا على 
علاقة متوسط هامشي بين العمر وحالة التأمين الصحي. الذي كان عاجزاً بشكل 
مطلق عن رسم خريطة هذا التعقيد. ونتيجة لذلك كان يبدو العمر غير مهم نسبياً في 
تنبو حالة التأمين. وكان ذلك - باختصار - نتيجة خطأ مواصفة (Specification‏ 
Error)‏ . علاوة على ذلك. بما أن العلاقة بين العمر وحالة التأمين تحر GS‏ اقتطاعات 
قانونية عشوائية من أجل أهلية البرنامح» فإن نمذجة هذه العلاقة - ببساطة - بشروط 
تربيعية (Quadratic)‏ أو تكعيبية (Cubic)‏ بالنسبة إلى العمرء لا تبدو أنها مرضية 
تماما (ولو أنها ستشكل - بكل ast‏ - تطورا مقارئة بالمواضفة الخطية): وسين 
أدناه» كيف أن عملية توزيع العمر في خانة بشكل مثالي ضمن فئات» وضم هذه 
الفئات باعتبارها متغيرات وهمية» يمكن أن يحسن القدرة التنبؤية للنموذج. 

)1( وبما أننا Oily‏ هذه البيانات في النتيجة» فإن الاحتمال الشرطي للحصول على التأمين - مع الأخذ بعين 
الاعتبار العمر الملخص في الجدول رقم 2.7 لا يتوافق مع الكميات الحقيقية للساكنة. ولكن بما أن 


cde ell be parcel‏ وغير الو هة ت انها عشوانا (مغدلات هة فان الفوارق النسية فى 
الاحتمال بين المجموعات العمرية؛ تعد مفيدة.(المترجم) 
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عقدة مجموعة ipe‏ بدون تأمين صحى عددالحالات 
1 0-8 30.73 49,685 
2 9-17 40.43 54,745 
3 23 -18 75.97 55,077 
4 24-29 70.71 52,9339 
5 30-35 63.51 45,247 
6 36-42 59.43 54,339 
7 43-48 56.08 50,676 
8 49-55 ا 57,490 
9 56-62 44.43 46,305 
10 +63 7.87 54,548 


الحدول رقم 27 استخدام شحرة مربع كاي للكشف عن التفاعل التلقائي 
بشکل مثالي. 


ولكن أولآء نعود - في الجدول 3.7 إلى تحليل شجرة لعلاقة أخرى بين متغير 
مستمر - العائد الأسري - والتأمين الصحي. ومرة أخرىء تمكن البرنامج من تحديد 
النقاط الفاصلة فى المتغير المستمر من حيث علاقته بالنتيجة؛ وتبدو هذه النقاط 
الفاصلة في $14,596« و523,000, و540,000: $31,200( وهكذا. ولكن يشير 
التفتيش حول كيفية تغير حالة التأمين عبر هذه المجموعات ذات الدخلء إلى علاقة 
خطية (أو على الأقل علاقة رتيبة) بين العائد الأسري والتأمين. وفى المجموعتين 
ذات الدخل المتدني» تفتقر نسبة كبيرة - نسبياً - من الأفراد إلى تأمين صحي. 
cates‏ هذه النسة كلما اتجهدا تضاعديا forall cs eae le‏ إلى baso‏ عل 
الفئة ذات الدخل العالي جداً. وإن احتمال عدم توافر التأمين لفائدة هذه المجموعة. 
يمثل ثلث تلك المجموعة التي يعيش أفرادها على الدخل المتدني. ومؤدى ذلك أننا 
من غير المرجح الحصول - بشكل كبير - على نتيجة» على مستوى القوة التنبؤية من 
خلال استبدال مواصفة مستمرة للدخل بفئات ذات مجموعة الدخل (وإن كان علينا 
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البحث في هذا على كل حال)ء وفي الواقع» من المرجح فقدان القوة التنبؤية. وتتجلى 
المسألة هناء في عدم استخدام الخانة دون تمييز. وفي حالات تكون فيها اللا خطية 
المعقدة ميزة من ميزات العلاقة «الحقيقية» الكامنة بين متنبع مستمر ونتيجة ماء 
ستساعد على التنبؤ. ولكن إذا كانت العلاقة الكامنة خطية بكل ASE‏ لن تكون 
مساعدة» وستكون - في واقع الأمر - غير مناسبة. 

مثال خلال استخدام إحصائية الحزمة الإحصائية للعلوم الاجتماعية 

لقد بينا فقط كيف يمكن استخدام الأشجار لعملية توزيع المتغيرات المستمرة 
في GE‏ ولكن على القراء أن يكونوا على علم Ob‏ رزم متعددة من رزم برمجيات 
التنقيب في البيانات» تقدم تطبيقات تستطيع توزيع متغيرات مستمرة في خانة بشكل 
مباشر أكثر» دون أن يكون المستخدم Lob ys‏ على فحص برنامج شجرة ما وتفسيره 
(ولو أن الرياضيات الكامنةء شبيهة جداً بتلك التي تعمل في الأشجار). كما تمكّن 
هذه الرزم المستخدم - بشكل آلي - بخلق وحفظ المتغير الجديد الموزعة في خانة 
أو المميزء في مجموعة البيانات» وهو أمر مريح. ونبين ذلك من خلال استخدام 
إحصائية الحزمة الإحصائية للعلوم الاجتماعية 21 لخلق 9 خانات من المتغير بالنسبة 
إلى العمرء ليتم التركيز مرة أخرى على حالة عدم التأمين الصحي باعتبارها نتيجتنا 
التي تهتم بها. 


الجدول رقم 3.7: استخدام شجرة مربع كاي للكشف عن التفاعل التلقائى 
(CHAID)‏ لوضع الدخل في الحزمة الإحصائية للعلوم الاجتماعيةء بشكل مثالي. 


53,355 5 61.20 31,201-40,000 
48.617 56.38 40,001-49,997 
53,983 51.59 49,998-61,400 E 
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61,401-76,000 45.5 52,216 
ا[ 76,001-96,990 38.30 51,713 


| 96,991-133,500 31,33 52.257 
أزيد من 133,500 23.17 52,050 


صيغة عملية التمييز المثالي هي : 





OPTIMAL BINNING 

/VARIABLES GUIDE = uninsured BIN = AGE SAVE = NO 

/CRITERIA METHOD = MDLP PREPROCESS = EQUALFREQ 
(BINS = 9) 

FORCEMERGE = 0 LOWERLIMIT = INCLUSIVE 

LOWEREND = UNBOUNDED UPPEREND = UNBOUNDED 

/MISSING SCOPE = PAIRWISE 

/PRINT ENDPOINTS DESCRIPTIVES ENTROPY. 


تتتج تسع خانات بالنسبة إلى العمر. والمجموعات العمرية التي تم إنتاجها هنا شبيهة 
sue‏ الى Least‏ شجرة مربع كاي للكشف عن التفاعل التلقائي أعلاه. ولم يعد 
الشباب مقسمين إلى مجموعتين» ولكن ظهروا باعتبارهم مجموعة واحدة تتراوح 
أعمارهم بين 30-18. والنقطة الفاصلة بين المجموعة الأكبر سنا هي الآن 64 عوض 
3 (ومع ذلك ليست 165 وهو الأمر غير المتوقع إلى حذما). 

نود الإشارة إلى مسألة أنه لو حددنا متغيراً مستقلاً مختلفاًء فسيكون من المرجح 
أن يولد البرنامج مجموعات عمرية مختلفة. إن العملية المثالية لعملية توزيع الخانات 
ينتح فئات من متغيرات مستمرة مثالية من حيث تنبؤ نتيجة معينة. ومهم تذكر أن 
البيانات» مع إمكانية استعمال فئاته المحصل عليها في تنبو العديد من المتغيرات 
التابعة المختلفة. وكل عملية من العمليات المثالية خاصة بمتغير تابع أو متغير نتيجة 


واحد. 
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الحدول رقم 4.7: إنتاج فئات عمرية بواسطة عملية توزيع خانات مثالية 
(إحصائية الحزمة الإحصائية للعلوم الاجتماعية (SPSS‏ 


pol 


Tepe lets T 
151,087 | 109,838 | 41,249 30 18 3 
فوب بات‎ RF 
سا نما لآ‎ Ml Mal نكا‎ 
76,950 34,610 42,340 
EEE 
A ddl 


ملاحظة: كل cated 45 je‏ على أسامن أنها أدتى + العم > الأعلى (lower‏ 
Age > Upper)‏ < 





Ll‏ ولدينا الآن العمر فى خانات مميزة» يمكننا إدارة انحدار لوجيستى جديد 
مصفوفة الارتباك (الجدول رقم 5.7) ورسم بياني ل أهمية المتنبئ (الشكل الرقم 
27 . وإن نموذج انحدارنا اللوجيستى تي الجديد له شبه مربع مكفادين (McFadden’ S‏ 
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 «pseudo-R*)‏ 0.259 وتسجيل احتمال he, (Log-Likelihood)‏ إلى 
1 وووكلاهما يشير إلى نموذج ذي 5 (Better-Fitting) jail OLS‏ 
وتوضح مصفوفة الارتباك بتحقيقنا بعض التطورات فى تصنيف كَل من الإيجابيات 

والسليات الصادقة. 


والشيء الأهم من كل هذاء هو أننا نلاحظ في الشكل رقم 2.7 (مقارنة مع الشكل 
رقم 1.7)» أن العمر حتى الآن» المتنبى الأهم لحالة التأمين الصحي؛ يعد الآن أكثر 
أهمية مرتين من الدخل الأسري. وإن ترتيب المتغيرات من حيث الأهمية لا يتغير 
بشكل كبير» مما يقترح أن العمر لا يصف الآن تباينا من التباينات السابقة التي تم 
وصفها EL‏ بواسطة متغيرات أخرى. لقد نتج عن عملية توزيع العمر في خانات. 
ae es‏ فی النموذج. عوض إعادة توزيع (Reallocation)‏ «العمل» انطلاقاً a‏ 
متغيرات أخرى إلى العمر. 

لقد بيّنا في هذا القسم كيف يمكن استخدام أشجار التصنيف» وعملية توزيع 
الخانات المثالية» استخداماً مثمراً لاستكشاف اللا خطية في العلاقة بين متغيرات 
المتنبئ المستمرة وبين متغير نتيجة ثنائية التفرع. كما رأينا اها قنع ان Ree‏ 
استكشاف هذه العلاقات اللا خطية يمكن أن تفرز تحسناً فى القدرة التنبؤية. بعد 
ذلك. نعود إلى العلاقة بين متنبئات مستمرة» ونتائج مستمرة» ونوضح كيف أن 
ينا رساك ا کیا as)‏ أن Nees‏ هته الحالة. 


الجدول رقم 5.7: مصفوفة الارتباك المتنبئة للتأمين الصحي مع تمييز العمر. 


_ ere الل‎ 


173,97 29.181 82.914 
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di‏ أسية is‏ اسا 


الشكل رقم 27 dea)‏ المتنبئ باستخدام المتغير العمري ذي الخانة في إحصائية 
الحزمة الإحصائية للعلوم الاجتماعية. الهدف: غير AH‏ 

نتائج مستمرة ومتنبئات مستمرة 

إن المنطق نفسه الذي تم العمل به في حالة من حالات متغير نتيجة ثنائية التفرع. 
يمكن تطبيقه Laf‏ على النتائج المستمرة. دعنا نقول Li]‏ نحاول تنبؤ نتائج مقاسة 
بشكل سثمر شل fel‏ «مستخدوين سعة مقاسة 6H)‏ بشكل مسقم وإذاكانت 
BUS‏ بين المتغيرين خطيةء فإن الانحدار الخطى المعياري يمكن استخدامه 
بسهولة. وإذا كانت العلاقة منحنية الأضلاع (Curvilinear)‏ فإمكاننا إضافة قيم 
تربيعية» أو تكعيبية» أو قيم ذات ترتيب أعلى لتقريب العلاقة. وإذا وجدت نقطة أو 
مزيد من النقاط الفاصلة الواضحة. فبإمكاننا نمذجة العلاقة بشكل جيد من خلال 
مواءمة 815 (Spline)‏ ما. 

ولكن blot‏ يمكن أن يرتبط متغيران اثنان على نحو أكثر تعقيداً. على سبيل 
Sol‏ لندرس العلاقة بين المكانة المهنية (Occupational Prestige)‏ والدخل 
(مسجل)» في الشكل رقم 3.7. على الرغم من وجود اتجاه تصاعدي عام في الدخل» 
كلما اتجهنا نحو قيم lel‏ من المكانة المهنية» فمن الواضح وجود فواصل 
وانقطاعات في هذه العلاقة» ليست مضبوطة بشكل جيد بواسطة نمذجة خطية. وفي 
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الشكل رقم 23.7 قمنا بضم خط تربيعي تنبؤي في الترسيمة (Plot)‏ ولكنه يلي التنبؤ 


15 


Income(log) 
10 


5 





0 20 40 60 80 100 
Duncan Socioeconomic Index 





الشكل رقم 3.7: b b>‏ مخطط التشتت (Scatterplot)‏ والمناسبة الواصفة للعلاقة 
بين الدخل الشخصي والمكانة المهنية في مسح المجتمع الأميركي (مأخوذ عن «الستاتا» 
Stata)‏ . 

وإن عملية إضافة قيم ذات ترتيب JE‏ لا يعزز القوة الإيضاحية بقدر كبير» وهو 
أمر يتأكد من خلال أداء انحدار ما. ested!)‏ في الجدول رقم 6.7). إن القيمة الخطية 
بالنسبة إلى المكانة المهنية بمفردها تفسر حوالي 114 من التباين في دخل مسجل . 
افا فاا ترجا deny‏ اال اک ہے ينرق 55 اھا Jil‏ سن 1 فى الہ 
قط Of)‏ المعاملات بالنسبة لهه القيم ذات الترتيب iala] IY gisi Al‏ 
(Statistical Significance)‏ في «p<.001‏ ولكن يتم ذلك قبل is‏ شيء LY‏ بصدة 
استخدام مجموعة بيانات تفوق 340.000 حالة. ومن خلال هذه القوة الإحصائية 
الكبيرة» سيكون - js = le‏ متغير ذي دلالة Ula]‏ فى مستويات (SD‏ 
المعيارية). ۰ 
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ربما يتجلى المشكل - ببساطة - في وجود bla‏ انعطاف (Inflection Points)‏ 
كافية في نمودج تكعيبي» وفي عملية مواءمة خد ما قد تكون أكثر ملاءمة. . وفي 
الشكل رقم 63.7 نوضح أيضاً متوسط خدة مناسبة» يضم LARS‏ متباعدة بشكل متساو. 
ولكن الخدة لا تختلف في الطريق كثيراً عن التنبؤ الخطي. كما أن إضافة قيم ذات قوة 
أعلى لهذا النموذج» لا يعزز القوة التنبؤية» OY‏ العلاقة أكثر تعقيداء مما يسمح به هذا 
النموذج. وإن إضافة الخدة لا يساعد» WY‏ لا ندرك عدد bla‏ الانعطاف في العلاقة 
بين المتغيرات» ولأن نقاط الانعطاف تلك ليست - على ما يبدو - متباعدة بشكل 
متساو. وفى هذه الحالة» يمكننا الاستفادة من تقنيات التنقيب فى البيانات كى تساعدنا 
على العمل بشكل أفضل. 

وعندما تكون العلاقة بين متغيرين معقدة على النحو الذي نراه هناء نستطيع 
نمذجته بإنتاجية أكثر من خلال تقسيم بياناتنا إلى خانات منفصلة للمتغير الإيضاحي. 
وبعدها استخدام مجموعة من المتغيرات الوهمية لهذه الخانات. ولكن فى حدود أي 
قيم من قيم مؤشر دونكا السوسيو اقتصادي «(Duncan Socieconomic Index)‏ 
يتوجب علينا القيام بتقطيعاتنا؟ 


ستحخدم دالة تقسيم cle’‏ برو) للقيام بذلك ال إليناء ودستحدم خيار 
الصلاحية المتبادلة لمطوية (K-Fold)‏ (بثلاث طيات). وسيمكننا هذا من الفصل 
فيما إن كنا بصدد الإفراط في عملية تناسبية النموذج. ولكنناء نستعمل 110 من عينة 
مسح المجتمع الأميركي لعام 2010 الذي يضم حوالي 340,000 حالة. وبهذه 
الحالات المتعددة. يمكننا بناء نموذج Sins‏ حدا من دول إفراط 2 ey yt‏ 


وإذا سمحنا بتشغيل النموذج حيث بداية صلاحية R‏ في التراجع» ستقسم 
الشجرة البيانات إلى 79 مرة» مشكلة بذلك خانات المؤشر السوسيو اقتصادي. OV‏ 
توجد في هذه الل Fp‏ فيم المؤشر السوسيو اقتصادي المتميزة. 
وهذا s‏ يعني أن البرنامج أ: نتج BE‏ منفصلة بالنسبة إلى كل قيمة منفصلة على حدة. 
وهذه النتيجة - مع ذلك - هي دالة لكل من عملية منح أولوية للتنبؤ على إمكانية 
التفسير «CInterpretability)‏ وللحجم الكبير جدا لبياناتنا. وتوضح مجموعات 
cob‏ العيقية غدل انفكا بقن ون aata bar ada‏ 
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عليها مجموعات البيانات الضخمة التقليدية. إننا نريد أن نبسط نموذجنا الخاص 
بالبيانات» بطريقة مفيدة - كي نختصر ذلك. لكن iblan‏ لا يوجد قدر كبير من 
المقايضة فى مجموعات ore‏ ضخمة بين التعقد (Complexity)‏ والدقة. وسنكون 
في حاجة إلى فرض قيد على التعقّد إلى درجة تبدأ فيها إمكانية التفسير في الانحدار. 
T‏ هذا القيد بشكل عشوائي جداًء ومن ثم نقرر إعادة شذب a‏ للحصول 
غل 12 aeaa‏ السات نزن babea‏ بقد و صخر 
من الدقة التنبؤية» ولكننا في الوقت ذاته» نكون قد حسنا من إمكانية التفسير. 


الحدول رقم 7 نماذج انحدار المربعات الصغرى العادية (OLS)‏ المتنبئة 
(لسجيل) الدخل من خلال مؤشر دونكا السوسيو اقتصادي. 


نموذج 1 نموذج 2 نموذج 3 
المؤشر السوسيو اقتصادي  0.0169***‏ ***0.0061 ***0.0310 
go‏ شر pou gull‏ اقتصنادى” *** 0.0001 ***0.0004- 
gee pall’ pd gall‏ فضا ***0.0001< 

اة 9.523 9.692 9.455 

0.149 0.147 0.143 R? 

جذر متوسط مربع الانحراف 0.998 0.996 0.995 

(RMSE) 
.2010 المصدر: مسح المجتمع الأميركي»‎ 
***D > O01. 


إن حل المجموعات pte SII‏ الى قمنا كسبويتها بمكن هلاحظته فى الشكل 
رقم 4.7 والجدول رقم AINE,‏ إن العلاقة العامة بين المكانة المهنية 
والدخل إيجابي» ولكن النمو ليس رتيباً. وفي الثلثين الأقل انخفاضاً من معدلات 
قياسات المؤشرء. يوجد نمط من الزيادات والانخفاضات فى الدخلء» وإيحائية 
المقانعاك Jett yo‏ ا ا BH og) Savy‏ ی بعل 
معقدة» ملاحظتها في الشكل رقم 5.7 
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إن عملية الانفصال (Discretizing)‏ بهذه الطريقة» تعزز القوة الإيضاحية 
«(Explanatory Power)‏ بنسبة 35/ من R?=0.1438‏ إلى R?=0.1945‏ ولكن هل 
الانفصال مفيد بمجرد كوننا نستخدم فقط متنبئاً وحيدا؟ وهل سيبقى المكسب في 
القوة التنبؤية PGE‏ بعد BLS)‏ المتغيرات المشاركة (Covariates)‏ أو هل ستكون 
المتغيرات الإضافية ols‏ الصلةء قادرة على أداء العمل الذي قامت به عملية 
الانفصال؟ 


نجيب عن هذا السؤال في الجدول رقم 8.7 من خلال إضافة بعض المتغيرات 
المشاركة البعيارية:الأخوزءونندا cae cll [SAIL Vogl‏ للعمر وهذه MLS‏ تعرز 
نسبة التباين الذي تم شرحه بشكل كبير» ولكن يبقى المكسب واضحاً بين النموذج 
مع وجود dan’‏ خطية وحيذة dadil‏ الى المؤشر السوسيو اقتصادي والشكل 
المنفصل. ويعزز التحصيل التربوي ”۸ في نموذج المؤشر السوسيو اقتصادي الخطي 
ب 0.037» وفي نموذج المؤشر السوسيو اقتصادي المنفصل ب 0.030. ويبقى الفرق 
نضيف افتراضات بالنسبة إلى الجنوسة» والعرق» مما يعزز أكثرء gall‏ الإيضاحية 
للنموذجين كليهما. وقد تقلص الفرق أكثر في ”۸ بين النماذج إلى حوالي 0.018. 

وهل يمثل هذا فرقأ كبيرا؟ وهل - حقيقة - عملية الانفصال مهمة جداً إلى هذه 
الدرجة؟ نؤكد أهميتها لعدد من الأسباب. 


أولاً: تبقى الفوارق فى القوة التنبؤية حتى بعد إضافة بعض المتنبئات الأكثر قوة 
Jea‏ 

انياً: قمنا بعملية الانفصال بمتغير واحد فقطء وهذا يحسن - مع ذلك - دقتنا 
التنبؤية بشكل كبير. 
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الشكل رقم 4.7: استخدام شجرة التقسيم لتقسيم مؤشر دونكا السوسيو اقتصادي 
(المكانة المهنية) إلى BW‏ عشر خانات. 


الحدول رقم 27.7 معدل الدخل بفئة المؤشر السوسيو اقتصادي المنفصل. 


معدل المؤشر السوسيو اقتصادي متوسط الدخل 5 


11,438.63 
26,338.88 
18,474.6 
31,989.98 
17,198.57 
43,962.59 


29,192.34 
65,166.95 
42,957.09 
67,200.71 
73,893.76 
90,917.83 
170,696.00 





ولك سن Laai‏ أكثرء of‏ عملية الاتفصآل قد كشفة عن عض السمانك 
المثيرة للعلاقة بين الدخل والمكانة المهنية» التي تعتبر مجرد ضجيج إحصائي في 


173 


التخليلات المغيارية. ونريد Ol‏ ثقر النمظ العام بمقاييس بديلة للمكانة» وبتنبؤات 
مأخوذة من العينة» ولكن ربما على الرغم من وجود علاقة خطية إيجابية عامة بين 
المكانية والدخل» هناك مقايضات محلية صغيرة» حيث تؤدي المهنة المرموقة أجرا 
أقل - إلى حدّ ما - من مهنة أقل مقاماً. 


قيم متنبأة للدخل بالنسية إلى مقاييس مؤشر دونكا السوسيو اقتصادي المنفصل 


12 


11 


الدخل (مسجل) 


87-9292-100 77-86 65-76 47-64 46 42-45 27-41 25-26 18-24 16-17 4-15 1-3 
مقياس موؤشر دونكا السوسيو اقتصادي 


الشكل رقم 5.7: القيمة المتنبأة للدخل الشخصي 


بالنسبة إلى مؤشر دونكا السوسيو اقتصادى المنفصل (Discretized)‏ 


الجدول رقم 8.7: BLS‏ متغيرات منفصلة قد تمّكن من تحسين التنبؤ (مقاسة ب ۸). 
المؤشر السوسيو اقتصادي فقط إضافة العمر التحصيل التربوي إضافة الحنوسة والعرق 





-3999 BEFA 3211 2912 .2916 | .2544 | .1945 | .1438 R? 
.3558 .3370 3210 wohl 2915 | -2544 | .1945 | .1438 | Jin R? 
0.8663 | 0.8788 | 0.8894 0.9088 | 0.9085 | 0.9320 | 0.9687 | 0.9987 | RMSE 
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عملية توزيع متنبئات مصنفة 
لقد رأينا سابقاً كيف أن أشجار التصنيف يمكن استخدامها في توزيع متغير 
Oe ete a AEE eo‏ 


Rel a‏ او er‏ ريا ge‏ موسي ب 
.(Parsimoniousness)‏ إننا نود تصنيف المهن - وهذا أمر مثالي بالنفية الا — cpl‏ 
laa‏ على نحو نسعى فيه إلى تحسين قدرة نموذجنا التنبؤي - i Bil gle st‏ 
ae tig gh shoe ae‏ العو يا بعد ln‏ أذترى إلى أ 
درجة يكون لهذا التصنيف معنى ضمن نموذج انحدار ما. وإذا لم يعمل مخطط 
تصنيف معين بشكل جيد» نتخلى - ببساطة - care‏ ونجرب اخر الذي نظنه D‏ 
معنی ١‏ . 
ب ووس ك 

ب الع عي سا و ري 


OL‏ قصدناء نستند - من جديد - إلى بيانات انتخاباتنا على مستوى المحافظة 
لعام 2012. إن وحدات ترصدنا هي المحافظات» بحيث تتمثل كل محافظة في ولاية 
معينة. لنقل إننا نريد فحص SU‏ الولايات فى تنبو حصة أوباما (Obama)‏ من 
نموذج انحدارناء غير أن هذا غير أنيق. وهناك خيار آخر تم استعماله بشكل cele‏ 
من فئة -4 أو من فئة -9). أو على مستوى ميزة أخرى (جنوب/ لا-جنوب» الحق- 
في - العمل. مقابل» الحق - في - عدم - العملء وهكذا). وقد تصلح تلك 
الاستراتيجيات لغاياتناء ولكنها طرق غير مباشرة تماماء في بلوغ ما نريد في حقيقة 
أقل. مجزأة cults a!‏ مثالية. 
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3843626 90 
êb 14.784522 










‘'State(UT, WY, KS, NE, ID, OK, TX, 
KY, TN, WV, NV, MO, MT, AR, ND, 








'State(Fl, PA, IL, OR, OH, CO, AZ, 
NC, VA, WA, MS, MI, MN, IA, NM, 
MD, SC, WI, CA, NY, DE, NH, ME, 


w 46.205173 31522358 953596 
Std Dev 12649056 


hae, WY, KS, NE, ID, OK, TO T 'State(KY, TN, WV, NV, MO, MT, | — 
eli IN, LA, GA, SD, AL) | | State(FL, PA, IL, OR, OH, CO, AZ, | “State(WI, CA, NY, DE, NH, ME, NU, 
Count NC, VA, WA, MS, MI, MN, IA, NM, | CT, RI, MA, VT, HI, DC) 


Cont %8 





T'State(UT, WY, KS, NE, ID, OK, TX, 
KY, TN, WV, NV, MO, MT, AR, ND, 






'State(Fl, PA, IL, OR, OH, CO, AZ, 
NC, VA, WA, MS, MI, MN, IA, NM, 
MD, SC, WI, CA, NY, DE, NH, ME, 









الشكل رقم 6.7 استخدام أجزاء من الشجرة لإيضاح المتغير الاسمي الفئوي (حالة) 
في الغامب برو. 


yc cet‏ 8 تقس في «الغامب برو)» مرة أخرى من خلال اختيار تحليل تقسيم 
النمذحة .(Analyze Modeling Partition)‏ وكل ما نقوم به - بعد ذلك - اختيار 
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حا ا ل ار برع ا ويما أن 

a a‏ اي ل ere‏ ا 
المجموعتين المختلفتين قدر الإمكان من حيث قيمة متوسط iar) ee‏ 
أوباما من التصويت). 


وإن القسم الأول» المبين في الشكل رقم 6.7 ينتج مجموعة واحدة من الولايات 
التي تملك محافظاتها متوسط حصة أوباما من التصويت بنسبة 31.7/» وتملك 
مجموعة ة أخرى من الولايات 46.2/ . وتضم المجموعة الأولى» الولايات الأكثر 
احمراراً من IS‏ الولايات الحمراء - أوكلاهوماء وتكساس» وآوتاء وأركانساس - 
في حين تضم المجموعة الثانية IS‏ الولايات الزرقاء إضافة إلى عدد من الولايات 
ob aol‏ ناتك GF‏ مدل تحتو كا رو sli‏ و ی PAE Be yar mally‏ 
التقسيمات الولايات إلى تقسيمات فرعية تصل إلى أربعة مجموعات بمتوسط 
حصص التصويت على مستوى المحافظات بلغ 2/27 و35/. و44/. 1.53.5 على 
التوالي. وقد فصل التقسيم الثاني في الجهة «اليمنى». الولايات إلى تلك التي تعد 
ديمقراطية بشكل موثوق فيه (مثل جزيرة رودء ونيويورك» وكاليفورنياء وهاواي) 
وولايات ذات ساحة معركة أكثر سخونة (فلوريداء بنسلفانياء ونيو مكسيكو). ولاحظ 
أنه على الرغم من أن هذا التمييز لا يخبرنا بالقصة كاملة - ولاية ألينوي الزرقاء بقوة. 
Ste‏ في هذه المجموعة التي تشكل ساحة معركة» كما هو الحال بالنسبة إلى 
es‏ ميسيسيبي» معقل الجمهوريين. أما التقسيم في الجهة «اليسرى»» فقد فصل الولايات 
saz a!‏ جا col l)‏ وکانساس» وإيداهو)» وغير حمراء بشكل قوي (جورجياء 
SS‏ 6 وإنديانا). 


الجدول رقم 9.7: توزيع الولايات. 


متو سط حصة 
مجموعة الولايات 


76.397. HI, DC 


55.127 DE, NE, NH, ME, NJ, CT 
5122), WI, CA, NY 


177 





AZ, NC, VA, WA, MS, MI, MN, IA, NM, MD, SC 


41.227. FL, PA, IL, OR, OH, CO rs 
36.967. AR, ND, IN, LA, GA, SD, AL 


O مي‎ enoo KE 
C ee o e KE 
O ee O e f 


الجدول رقم 10.7: تأثير توزيع المتغيرات المستمرة إلى خانات في R?‏ 


12.01 3392 3496 OLY St افتراضات‎ 


فئات التنقیب فى الببانات 3448 3427 11.98 
منطقة التعداد 1637. 16.15 13.53 





ضوابط إضافية + فثات التنقيب فى البيانات | 6918 6895 8.23 
ضوابط إضافية + منطقة التعداد 6586 6563 8.66 





ويسمح «الغامب برو ببناء شجرة لتعظيم المواءمة في عينة الصلاحية المتبادلة, 
ولكننا نسعى هنا إلى القيام بشيء مختلف قليلاً. إننا نحاول تعظيم التنبؤ والتقتير في 
آن واحدٍ عوض منع الإفراط في التدريب. وفي «الغامب برو»» يتم ذلك من خلال بناء 


شجرة شيئا فشيئاء مع فحص إحصاء تطابقي/ تناسبي عقب كل تقسيم. ونفحص 
حركة معيار أكايكى للمعلومة (Aikake Information Criterion)‏ التى تقيس 
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التناسب» وتعاقب نموذجاً ما لإضافته المَْلمات. ولأن قيم معيار أكايكي للمعلومة 
يشير إلى تناسب أفضلء فإننا نبني الشجرة ما دام معيار أكايكي للمعلومة يستمر في 
الهبوط. وعندما يبدأ في الصعود مرة أخرىء» نشذب الشجرة ثانية إلى نقطة كان فيها 
معيار أكايكي للمعلومة الأدنى. 

وإن القيام بذلك يولد 11 فئة من الولايات» JS‏ بمتوسط قيمة مختلف بالنسبة 
إلى حصة أوباما في التصويت. وقد تم تمثيل هذه الفئات الإحدى عشر في الجدول 
رقم 69.7 من الحصة الأكبر إلى الأصغر من حصص متوسط التصويت لدى أوباما 
على مستوى المحافظة. 


ومن الواضح وجود بعض الولايات النشاز في الجانبين les‏ (هاواي. وواشنطن 
د. س.. في الجانب الموالي LLY‏ وأهوتاه في الجانب المعارض له)» وسينتهي 
الحال إلى وجود مجموعات صغيرة hie‏ ومجموعات كبيرة في الوسط. ولا بد من 
الإشارة إلى أن الولايات تتجمع إقليمياً إلى Led‏ وکل ولایات بريطانيا الجديدة - 
في النهاية - توجد في المجموعتين الثانية والثالثة» في حين تظهر ولايات جنوب 
المحيط الأطلسي في المجموعتين الخامسة والسابعة. 


ويقارن الجدول رقم 10.7 الدقة التنبؤية لتجمّع الولايات الذي توصلنا إليه عبر 
التنقيب في البيانات مع ذلك الذي حصلنا عليه باستخدام تصنيف مستلم مثل منطقة 
التعداد. إن لدى تصنيفنا 11 فئة» وهناك 9 مناطق تعداد فقطء ومن ثم» فمن المفيد 
التركيز على قياس تناسب نموذج مثل R?‏ المعدلة (الذي يعاقب نموذجاً ما على ضمه 
معلومات إضافية) من أجل مقارنة عادلة. كما نقارن أيضاً تصنيفناء مقابل نموذج 
يضم افتراض واحد بالنسبة إلى كل ولاية (ومن ثم واحد ذو 50 فئة). إن تصنيف 
التنقيب في البيانات يتفوق بشكل واسع على مخطط تصنيف منطقة التعداد. مفسرا 
مرتين التباين في حصة التصويت بشكل عام» ولكن يبقى جذر مربعه R?‏ المعدل أقل 
انخفاضاً قليلا. وبالتالي» من خلال استخدامنا التنقيب في البيانات» نكون قادرين 
تقريباً على تفسير قدراً من التباين في المتغير التابع مع نموذج أكثر تقتيراً بكثير. 
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ولمزيد من فحص هذاء نضيف مجموعة أخرى من متغيرات ضابط تنبؤي 
PLU‏ في أسفل الصفوف الثلاثة لجدول رقم 10.7. ونقوم بذلك لاختبار إمكانية 
معر فنا لمكان المحافظة, لا يوفر أي معلومة» تعجز متغيرات أخرى عن وصفها. وفي 
الحقيقة» عندما ندير انحداراً ما الذي يتنبأ بحصة أوباما من التصويت ويضم فقط 
متغيرات الضابط الديموغرافي» نكون قد فسرنا قدراً لا بأس به من التباين = 54/. 
وعندما نضيف متغيرات منطقة التعداد» نكون قادرين على تفسير نحو 11/ أكثر من 
التباين» وعادة ما يكون ذلك كافي. وسنرى في القوة التنبؤية المحسّنة للنموذج الذي 
يضم منطقة التعداد» ونختم بأهمية المناطق في مغزى آخر. ولكن في هذا المثالء 
لدينا أيضا التصنيف «المثالي» للولايات انطلاقا من التنقيب في البيانات. ويعد 
pls‏ هذا da Call‏ حى فى تمو Lal pd 93 cd‏ كبيرة : ترتفع R?‏ المعدلة 
من 0.65 إلى 0.68 


استخدام أشحار التقسيم لدراسة التفاعلات 


ثمة استخدام آخر لأشجار التقسيم» ويتمثل في تحديد التفاعلات المهمة بين 
المتغيرات. وتشجعنا نمذجة الانحدار التقليدي على التفكير في العالم باعتباره مكوناً 
من سلسلة من خصائص إضافية: فاحتمال توظيف شخص ما يشكل دلالة خطية 
لجنوسته» وعرقه» واعتماده التربوي» وعمره» وتاريخ أعماله السابقة» مثلاً. كما 
we‏ كا الدخل alo‏ إضافية للعمر Cans)‏ والتجرية. والتمدرس. 


وأحياناء نقر بكون المتغيرات تتفاعل لإنتاج النتائج. وربما يتفوق تأثير التعليم 
فى الدخل» على جنوسة شخص tle‏ أو ربما يتوقف SU‏ معدل البطالة فى احتمال 


)2( تتجلى حالات الضبط الإضافية لديناء في ثلاث قياسات من التوزيع العمري (نسبة الساكنة أقل من 18. 
ونسب عمرية بين 18 -34» ونسبة 65 أو (SÍ‏ وثللاث قياسات من التوزيع العرقي (نسب البيض غير 
الهيسبانك» والسودهء واللاتينيين )» Sg‏ قياسات مهن التوزيع التربوي (نسبة السكان البالغين الحاصلين 
على شهادة أقل من شهادة الثانوية» ونسبة من كان يحضر في الكلية» لكنه غادر دون حصوله على شهادة 
ونسبة من حصلوا على درجة الباكالوريوس» أو درجة أكبر منها)» ونسبة البطالة بين الذكورء ونسبة الفقرء 
ونسبة اليد العاملة في المهن الفنية والإدارية» ونسبة الساكنة البروتستانتية الأنجلكانية (المراجع). 
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إعادة الانتخابات الحالية على ما إن كانت البلاد تعيش حالة حرب أم سلم. فبالنسبة 
إلى الجزء OSV‏ نتعامل مع التفاعلات على هذا النحو LLG‏ إن التفاعلات في 
اتجاهين معقدة بقدر ما نسمح للعالم أن يظهر في نماذجنا. 


إن أشجار التقسيم يمكننا من البحث عن التفاعلات الأكثر تعقيداً. ولمعرفة 
السبب» نحتاج إلى LEY!‏ بشكل مختصر إلى معرفة الشيء الذي تقوم به الأشجار 
(مزيداً من التفاصيل تجدونه في الفصل 10). إن لوغاريثمات الشجرة تقسم الحالات 
في بياناتناء إلى مجموعتين متجانستين قدر الإمكان من حيث النتيجة. وتقوم بذلك 
من خلال تجريب كل قيمة ممكنة JEI‏ متغير مستقل» وإيجاد السبيل الأفضل لتقسيم 
العينة إلى مجموعات فرعية. وبعد قيامها بالتقسيم الأول» تكرر العملية مرات عديدة» 
فتنتج كل مرة تجميعات متجانسة بشكل متزايد على مستوى النتيجة أو المتغير التابع. 
ومختلفة عن بعضها بعضاً بشكل متزايد. 










0.1569 0.1569 
08431 0.8431 


*'nhinc< 55004 not Missing 


1 5 Rat 1 Pi 5 
0 0.2247 7 
1 ` 0.7753 3 






الشكل رقم 7 شجرة حالة التأمين الصحي - التقسيم الأول للبيانات. 


وبما أن المتغيرات المتنوعة تم انتقاؤها لإنتاج الحالات التي انتهت في الخ 
pe w 3 š 1 0 1 5‏ ۰ 
بتجميعها فى «أوراق» نهائية» يمكننا التفكير فى كل ورقة محددة بتفاعل معقد من 
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القيم. وبهذه الطريقة» تساعدنا الأشجار على استكشاف تفاعلات معقدة يصعب 
علينا تحديدها. 

ونبين هذا باستعمال بيانات مسح المجتمع الأميركي لعام 2010. ونترك شجرة ما 
تنمو مستعملين كمتغير تابع» مؤشر الحصول على تغطية التأمين الصحيء والعمر. 
ومستعملين العرق» والمواطنة» والجنوسة» ودخل الأسرة» والعمر» والتحصيل 
التربوي» والحالة الوظيفية» والحالة الاجتماعية» باعتبارها متغيرات مستقلة. ونستعمل 
تقسيم في وقت واحد للحصول على شجرة متواضعة من حيث الحجم. وبخلاف ما 
كان في القسم السابق» لم نوازن البيانات حول النتيجة» وطبقنا وزن السكان. Oly‏ 
الاحتمالات المشروطة الناتجة» تشكل - إذن - تقديرات كميات السكان. 


وفي الشكل رقم 7.7» نرى أن في عقدة الجذر MOYES JS)‏ لدى حوالي 
,83.37 من أصل کل الحالاات» WKS‏ من أشكال التأمين الصحي. وحوالي 7.15.7 y‏ 
تملك ذلك. وإن تلك الحالات الموجودة فى الأسر ذوي الدخل المختلط الذي يصل 
إلى 555,000 على JS BNI‏ عام تبلغ 92/ من المؤمّنين؛ وفي الأسر ذوي الدخل 
الأقل انخفاضاء بلغ معدل التأمين حوالي 78./ تقريباً. 

ويمكننا متابعة هذين الفرعين أكثر (الشكل رقم 8.7). وبين المجموعة الأكثر 
ثراء» تستمر الشجرة في التمييز حسب حالة التأمين الصحي. وتم تقسيم DE‏ في الدخل 
فى حدود حوالى 585,000 . وبين المجموعة ذات الدخل الأقل انخفاضاً نسبياً(الدخل 
بين حوالي 555,000 و585,000)» تعد المواطنةء الأكثر تنبؤا للتأمين. وحوالي النصف 
من غير المواطنين في هذه المجموعة ذات الدخل المرتفع» تفتقر إلى الوصول على 
التأمين الصحي حسب هذه البيانات. وهذا مختلف جدأعن مواطني الولايات المتحدة 
ذلك» تفاعلاً بين الدخل والمواطنة داخل الأسر ذات الدخل المتوسط العالى. وبين 
المواطنين على مستوى هذا الدخل» هناك تقسيم في سنّ 65: حوالي 100/ من الفئة 
وأفراد من «أعراق أخرى». هناك حوالى 95/ من المؤمَّنين» فى حين لا تتجاوز نسبة 
التأمين لذ السود 9 es lly eiaa Al‏ كيين clo VI‏ 86/. 


182 


وإذا ما اتبعنا الفرع الأيمن (غير المعروض». بما في ذلك أولئك الذين لهم دخل 
أقل من 555,000» فسنجد أن بداية أي عمر هو المتنبئ الأهم في حالة التأمين. أما 
أولئك المؤهلين للرعاية الصحية» وتتجاوز أعمارهم 65+ فهم عمليا مؤمنين بشكل 
عام. وأما غير كبار السن» فيقسمون بعدها مرة أخرى عند سنّ الرشد. ولا يستفيد من 
التأمين إلا حوالي 12/ من أطفال الأسر ذوي الدخل أقل من $55,000 سنوياًء ولكن 
يستفيد حوالي ثلث البالغين في سنّ العمل. ومع ذلكء إن المواطنة بين الأطفال» تتنباً 
بالتأمين بشكل كبير؛ ولا يفتقر إلى eel!‏ عن المواطتين الأميركنين فى ote‏ هذا 
الدخل» إلا حوالي 10./» بينما يستفيد حوالي النصف من القاصرين غير المواطنين 
من هذا التأمين. ومن بين الراشدين في سن العمل» نجد تقسيمات من جديد في 
الدخل (في حدود $35,000( والمواطنةء والحالة الوظيفية. l‏ 


O 00809 0.0809 


1 0.9191 0.9191 





O 0.1156 0.1156 
` ¦ 0.8844 0.8844 





0 00417 00417 Level Rate | 
1 09583 09583 0 01370 0 1 05798 05798 
> candidates 1 08630 08 REST 


0.1074 0.1074 
| SEE 08926 0.8926 





الشكل رقم 8.7: تقسيم آخر لبيانات موجودة 


وعموماء ننتج شجرة ذات 13 ورقة. وتضم هذه الأوراق نسباً مختلفة من العينة: 


(الجدول رقم 11.7). 
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الل الل و طرفو وود ريا الدج 0 قوم ذلك بالطريقة ت التي 
= بها (A> ran‏ « کل الحالاات شي هله ا ان 0 م 
ایا ہک واس - إلى کات gat‏ رای Foe i han pk‏ 
لع سي aA PLP‏ ا Fg‏ 
a TN‏ ماوع Be‏ 
تأمين منخفض» صغيرة جدا. ومن ثم» تكون غالبية غير المؤمّنين ضمن مجموعات 
ذات مستويات تأمين معتدلة. See‏ إن المواطنين الموظفين في سنّ العمل ذوي 
a geal‏ كارو رارع I‏ مرو ايو لمر 
من كل أولئك الذين يفتقرون إلى التأمين. 


يعر يا ee‏ عاو نجع Oa er eres‏ فى poe‏ رقم 

c12. 1‏ نبين عددا من نماذج الانحدار اللوجيستي ou‏ ا تغطية التأمين الصحي. 

وتذكر أن في هذه البيانات» تتوفر أكثر من 80./ من الحالات» على التغطية الصحية. 

ليكون يدنك ابر لمر الدع re (Lopsided) Sut.‏ . وفي هذا النوع من الحالات 

eT‏ - يمكن لنموذج ما أن يظهر نجاعته بشكل كبير في 

AS کی ابخان بالنسية إلى‎ gS غل‎ aa e كن‎ ag Org care 

الخالات: أي بإمكان نموذج ماء القيام بعمل جيد بخصوص إحصاء تطابقي. يحدد 

النسبة التي تصنف بشكل صحيح» من خلال تخصيص كَل الحالات لنتائج الأغلبية 
(المؤمنين في هذه الحالة). 


الجدول رقم 11.7: أوراق الشحرة. 


i‏ 57 الحنسية الحالة تة | کل 
g ole i a‏ الأمير كية لعرق المهنية | المؤمّئين | الحالات 


أبيض 
سيو حر 





| | 


pa [os [oe FIER 
مات‎ [oe | صن | سے‎ feo] 6 | sm | 


= som | 
14.81 11.45 79.72 penet tee 64-19 | $31,000-$55,000 amem t 


13 $31,000 64-19 > لجميع > لجميع 35.40 ; 10.38 





وبالتالي» سيكون لزاما على نموذج جيد القيام بأفضل من ذلك - سيكون أكثر 
دقة» ويقوم بعمل GY‏ للتمييز بين الإيجابيات الصادقة والكاذبة. وسنراقب lode‏ من 
قياسات تناسب النموذج. وفي الحقيقةء إن R?‏ - الزائفة (Pseudo-R?)‏ مقياساً لا 
بأس به في ضبط مدى أفضلية نموذج ما على تخمين عشوائي في هذه الحالة» لتحديده 
مدى أفضلية نموذج ما على نموذج صفري (Null Model)‏ إن إحصاءات معيار 
أكايكي للمعلومة ومعيار بايز للمعلومة ضمّت في التحليل» الرغبة في كل من التنبؤ 
TETAI‏ وكما قلنا coe‏ إن استخدام اله بشكل صحيح» المصنفة باعتبارها 
sich EP EET TE PRES‏ 
حيث النتائح. ونود هنا - في الحقيقة - فحص خصوصية النموذج: نسبة أولئك 
الذين يفتقرون إلى تأمين» ومصنفين بشكل صحيح على هذا الأساس. والمنطقة في 
ظل منحنى خاصية التشغيل المتلقى «(Receiver Operating Characteristic)‏ 
تقيس أيضا مدى أفضلية نموذج ما على تخمين عشوائي 
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الجدول رقم 12.7: تأثير إضافة افتراضات الورقة إلى نموذج تنبؤي. 


0.7745 715.13 498.40 | 7487.30 | 204,538.8 | 204,421.9 | .1492 1 متغيرات المكون‎ z 
0.7957 418.25 497.65 | 487.06 | 196,686.7 | 196,559.1 | .1749 افتراضات الورقة فقط‎ 


متغيرات المكون + الأوراق 2030. | 189,596.5 | 189,777.2 | 787.29 | 98.40% 15.107 0.8182 


متغيرات ضبط إضافية فقط 2 | 0.0546 | 227,415.8 | 227.596.6 | 86.66/ | 1100.00 


حالات الضبط 
+ متغيرات المكون 


حالات الضبط + أوراق . | 189,788.6 | 190,086.3 .787 | 798.29 


حالات الضط + مكونات + 
١ 5‏ 2395 182,801.2 | 183.205.2 )7187.8 498.03 721.45 0.8342 
اوراف 


1. العمر» دخل الأسرة» العرق» المواطنة» الحالة الوظيفية. 

ake ES E 2‏ ا ا 

ا ی ا 
التقسيم أعلاه؛ أي نضمٌ فقط العمر (باعتباره A bina ET‏ ودخل الأسرة (وهو 
مجموعات: مواطن بالولادة. مواطن (pares‏ ومواطن فاقل للمواطنة). والحالة 
ظل منحنى خاصية التشغيل المتلقي» تقترح أفضلية عمله على التخمين العشوائي 
بنسبة 55/» وتصنف نسبة LS‏ من غير المؤمّنين» بشكل صحيح. ويعد هذا - جزئيا 
- شاهداً على العون المقدم من OW‏ شجرة التقسيم. مع اعتبار أن الشجرة انتقت 
المتغيرات التى استخدمناها هناء مشيرة إلى احتمال أهميتها كثيرا. ونقارن هذا 
بنموذج متغيرات وهمية JS‏ 13 ورقةء أنتجتها شجرة تقسيمنا (في الحقيقةء 12 


798.29 | 787. 197,578.9 | 197,291.8 
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ورقة» إذا ما استخدمنا المجموعة الأكبر بمثابة مرجع). ولاحظ أن هذه ليست 
متغيرات وهمية كما تعودنا على التفكير فيها. إنها تعرف بتقاطع خمس خصائص. 
بحيث يقاس اثنان منها بشكل مستمر (ولكن تقسم إلى مجموعات)» أما ما تبقى. 
فهي قياسات عامة. علاوة على ذلك لا نستخدم JS‏ التركيبات الممكنة لهذه 
المتغيرات فى التحليل» ولكن نستعمل فقط مجموعات خاصة محددة أعلاه؛ 
ارا fetal poll gle se - Wea‏ و ركفي اليف sage Ny‏ 
جميعهم» إضافة إلى أفراد من «أعراق CAT‏ ضمن أسر Old‏ دخل يفوق $85,0000 
سنوياء بغض النظر عن المواطنة» والعمرء والحالة الوظيفية. ولكن تشترك المواطنة. 
والعمرء والحالة العائلية فى الفوارق بين مجموعات أخرى. وتتميز المجموعة 1 
بخاصة عن المجموعة 2 حسب تصنيفات العرق» وعن B‏ المجموعات الأخرى 
بنقطة فاصلة في الدخل . 

إن النموذج الذي يحتوي فقط على افتراضات «الورقة» coda‏ يؤدي. إلى حد ماء 
وظيفة أفضل من متغيرات «المكوّن» - أي التأثيرات الرئيسة غير الخاضعة للتحويل. 
وعندما نقوم بدمج مجموعتي المتغير هذين» نقوم بشيء أفضل (باستثناء مستوى 
الخصوصية). ومع ذلك» ليست الفوارق في الدقة التنبؤية كبيرة. 

وبعد ذلك» نختبر نموذجاً يحتوي فقط على متغيرات إضافية (الجنوسة. 
والتحصيل التربوي» والديانة» والحالة الاجتماعية)» لم يتم انتقاؤها بواسطة شجرة 
التقسيم. ونريد اختبار ما إن كان الامتياز التنبؤي الذي منحته متغيرات الورقة» شيا 
يمكن أداؤه فقط من خلال ضمٌ مزيد من المتغيرات المستقلة في النموذج» متغيرات 
ربما تكون مترابطة بشكل معتدل مع متغيرات المكون. وهذه المتغيرات - في حد 
ذاتها - ذات قيمة تنبؤية» وإن كانت بنسبة محدودة (لتمنح R?‏ = زائفة تقدر ب 0.05). 
وتعرض نتائج هذا النموذج لتأسيس خط أساس جديد. ويمكن أن نرى من خلال 
فحص الحساسية والخصوصية. قيام النموذج اللوجيستي هنا - في OLE‏ معلومة 
أفضل - فقط بتصنيف كل الحالات باعتبارها تنتمي لطبقة النتيجة المهيمنة. 


وفى النموذجين 7-5« نضيف المتغيرات المستخدمة فى النموذجين 3-1 أعلاه. 
وعندما تضاف متغيرات الضبط إلى متغيرات المكوّن» تقودنا تقريباً إلى الدقة التنبؤية 
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نفسها التى كانت لدينا لما استخدمنا فقط افتراضات الورقة. وهل هذا يعنى أن 
الأرواق لمت pail‏ تنام فى Canal Ve LS‏ بجر التي ودع 6 las)‏ بعلم 
صحة ذلك؛ فالأوراق تساهم بشكل كبير في تنبؤ النتيجة على قمة حالات لضبط. 
وتعمل عملا أفضل من متغيرات المكوّن نفسها (النموذج 5) من حيث قياسات 
ws‏ 


وأخيرأء نقدم نموذجاً تضم فيه جميع حالات الضبطء والأوراق» والمكوّنات. 
ولهذا النموذج أكبر دقة تنبؤية من حيث كل قياسات التناسب باستثناء الحساسية التي 
تعد الأعلى في النموذج 4 ببساطة لأنها خصصت JS‏ الحالات للنتيجة الإيجابية 
(ومن ثم ضبط 100/ من الإيجابيات الصادقة). وليست الدقة التنبؤية أكبر بشكل 
كبير» ولكن قدرتنا على الحصول على امتياز باستخدام قيم تفاعل مولدة من شجرة 
التقسيم هو أمر مهم خاصة إذا ما اعتبرنا أن الطبيعة المائلة للنتيجة» تشكل تحديات 
أمام أي نموذج تصنيف كان. بالإضافة إلى AUS‏ يجب الإشارة إلى أن شجرة 
التصنيف كان يسمح لها بالانقسام 12 مرة فقط في هذه البيانات. وإذا ما تركنا الشجرة 
تنمو بشكل كامل» فستنقسم إلى مجموعات أصغر. وقد تكون القيم التنبؤية لقيم 
التفاعل تحسنت legs‏ ماء إذا ما واصلنا التقسيم. 


ويتجلى ضعف طريقة الشجرة - مرة أخرى - في تأويل النموذج النهائي. 
وعندما تستخدم أشجار التقسيم لبناء قيم التفاعل مثل تلك القيم في هذا التحليلء فإن 
مُخْرجَ نموذج الانحدار لا يمكن قراءته بالطريقة البسيطة نفسها باعتباره نموذجاً 
تفلن يها راك سيظة إن اكرات التي تم تأويلها بشكل عام» باعتبارها 
قياسات لقوى اا لم تعد 5 (Abbott 2001) E‏ ولا يمكننا 
القول «بارتباط 10./ في الدخل د2/ من الارتفاع في احتمال الحصول على التأمين». 
نستطيع القول - عوضاً عن ذلك - بربط عضوية في مجموعة ماء المحددة بتوحيد 
خاص للخصائص» بارتفاع في احتمال الحصول على التأمين؛ أي أننا نسمح للبنية 
الاجتماعية بجمع الناس بطرق معقدة ضمن مجموعات تشهد نتائج متباية. 

ثانياً: في النموذج 7» حيث ضمّنا متغيرات ورقة» إلى جانب مكونات تولّدت 
منها الأوراق» فإن تفسير المُعاملات (Coefficients)‏ إما على مستوى الأوراق أو 


188 


التأثيرات الرئيسة» يطرح ed‏ بل لا يمكننا استخدام الطرق بشكل عام لتفسير قيم 
التفاعل Brambor, Clark, and Golder 2006; Jaccard and Turrisi Nes yal)‏ 


2003( مثلاء لندرس تفسير المعامل 8 في المعادلة التالية التي تميز النموذج 7: 





p 
l 
يه‎ (= 





12 
= 0 + B2G2+ Ý BG; + Bis income + Bis black + Bis latino + Bie asian 
j=3 


+ 817 nativeamerican+ Bigotherrace + YX + SZ + ع‎ 


تمثل ر8 تأثير كون الفرد في مجموعة 2 (والمترابطة بكون الفرد في مجموعة 1) 
في احتمال لحار على ا ومع ذلك تحدد هذه ال mn‏ 
Mandela rahi‏ لبا وو و د piri‏ 
الأقل. ومع ذلك» فإن المجموعات العرقية الأخرى تدخل في التحليل باعتبارها 
الأبيض). ويعد JEI‏ أيضاً متغيرا منفصلاً» يقاس بشكل مستمر. ومن ثم» فإن التأثير 
في التأمين الصحي للتباين العرقي بين أصحاب الدخل المرتفع» يعد Ble‏ من 
الدخل والعرق. وكي نكون وان ضحين» إن إيجاد معنى لهذا pol‏ معقد. ويعد تباين 
المجموعة الأسط» فى هذه الحالة الخاصة» Les‏ أن المجموعة el‏ والمجموعة 2 
تشكلان أنقساما lel y‏ تعدا عن تعهدهها بعضا رومن ناحة og tt‏ شك المجبوعة 
1» والمجموعة 10 تقسيمات منفصلة. وتتباين من حيث الدخل» والمواطنة» والعرق/ 
والإثنية» والمجموعة العمرية. 

ويطرح التأويل تحد بسبب ضم كل من افتراضات الورقة ومكوناتها في النموذج 
نفسه وخاز رحد اد NR Ab ase‏ شد وير a‏ 
a)‏ ومن أجل تعظيم التنبؤ - مع ذلك - تبقى عملية ضم JS‏ المعلومات في هذه 
الات Nae | ol‏ 


(3) تعد المجموعة 1ء المجموعة المرجعية؛ فهي لا تظهر - إذن - في المعادلة. وتعد x‏ القوة الموجهة 
لمتغيرات «المكون» المتبقيةء و2 القوة الموجهة لمتغيرات «الضبط» الإضافية. (المترجم) 
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خلاصة 

نحن لا نعيش في ما يسميه أندرو أبوت (Andrew Abbot)‏ «حقيقة خطية 
عامة»؛ وإنما تولد النتائج من خلال التفاعل المعقد لعمليات اجتماعية التي تعد 
المتغيرات - عادة - بالنسبة إليهاء مجرد اختزال مريح؛ بل إن طريقتنا المعيارية في 
ترميز تفاعلاتنا بين المتغيرات ليست كافية لضبط تعقيد كيفية تفاعل الخصائص فى 
العالم. وتتلخص النماذج في نماذج الانحدارء التي تساعدنا بدقة عبر التبسيط التي 
تفر ضه على العالي مشيرة إلى متو سط العلاقات ذات الأهمية الكبرى. 


في هذا القسم - إلى مدى قدرة أدوات التنقيب في البيانات مثل أشجار التقسيم» 
السماح لنا بأداء هذا. ويمكن لأشجار التقسيم بخاصة» أن تكشف عن كيفية تفاعل 
المتغيرات - ويسمى متغير في شجرة التقسيم بعد هذه الجودة الدقيقة: «مربع (GIS‏ 
للكشف عن التفاعل التلقائي (CHAID)‏ علاوة على ذلك إن الرفع من قدرة 
الكشف عن التفاعل» يمكن أن يساعدنا في تحسين القدرة التنبؤية - ومع ذلك. كثيرا 
ما تتفوق أشجار التقسيم على الانحدار اللوجيستي في مهام التصنيف. وقد بينا هنا أن 
استخدام قدر صغير من قوة الكشف عن التفاعل لأشجار التقسيم» يمكن أن تحسن 

ويمكن استخدام طرق التنقيب في البيانات في إنتاج تحولات متغير جديد - 
عملية توزيع مثالي للخانات وإنتاج قيم تفاعل معقد. وفي بعض الأحيان» يمكن 
النظر إلى هذا باعشاره يجعل مجموعة متغيرنا أو سمتنا أكثر تعقيدا. وبع د ذلك سنتتقل 
إلى مجموعة تقنيات من أجل تقليص تعقيد مجموعة سمتناء مع الحفاظ - في الوقت 
نفسه - على البنية العامة للبيانات: طرق استخراج متغير. 
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الفصل الثامن 
استخراج المتغيرات 


تحليل المكون الرئيسي 

عندما تكون لدينا بيانات ذات بعد عالى» أي بيانات واسعة جداً (خصائص أو 
ol‏ کل )رل اا إيجاد طرق mE‏ بعديتها .(Dimentionality)‏ وقد 
سبق لنا مناقشة طرق انتقاء السمة fre‏ الانحدار التدريجى «(Stepwise Regression)‏ 
واللاسو (Lasso)‏ وانحدار معامل تضخم التباين (VIF)‏ وتعد هذه الطرق خيارات 
- لا محالة - عندما نريد تخفيض أبعاد متغيرات المتنبئ على مستوى علاقتها بنتيجة 
ما. كما تعد أدوات انتقاء السمة» Bb‏ «مراقبة» برمتهاء مادام هناك بعد محدد من 
البيانات (النتيجةء أو الهدفء أو المتغير التابع) يتمتع بامتياز» وأننا ننتقي متغيرات 
مهمة بالنسبة إلى كيفية علاقتها بهذا المتغير المتمتع بامتياز. 

ولكن لا نملك دائماً متغيراً نهتم به بشكل خاص. وأحياناًء لدينا ببساطة كتلة من 
البيانات» ونريد من خلالها تمييز أنماط فى هذه البيانات. ومن الممكن اختصار جزء 
5 ميان ANE e lage ee‏ والتعبير ac‏ بلباقة 
وببساطة بواسطة حفنة es‏ ملخصة. ومن أجل هذا النوع من الحالة بالذات 
الذي طورت في إطاره هذه التقنيات العتيقة من تحليل المكوّن الرئيسي» وقريبه 
الوثيق الصلة به - تحليل العامل .(Factor Analysis)‏ 


لعام 2012: 
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© ونسبة السكان الذين يمتلكون شهادة جامعية أو شهادة أعلى. 

O‏ ونسبة القوة العاملة فى الوظائف المهنيةء والإدارية. 

ولا غرو أننا نجد ترابط هذه التصورات الثلاثة فيما بينهاء وبالنتيجة» إن معظم 
الناس في الوظاتف المهنية أو الإداريةء هم خريجو الكلية» كما يميل كل من خريجي 
الكلية وأولئك الذين يشغلون تلك الوظائف إلى أن تكون لديهم رواتب أعلى من 
المتوسط. ولفحص ترابطاتهم» نستطيع إنتاج مصفوفة ارتباط (Correlation‏ 
Matrix)‏ (الجدول رقم 1.8 ورسم بياني للتشتت (Scatterplot)‏ ثلاثية الأبعاد 


(الشكل رقم 1.8( بحيث يعد هذا الأخير إذن من غامب. 


الجدول رقم 1.8: مصفوفة الارتباط. 


متوسط الدخل /التعليم العالي / مهني/ إداري 


متوسط الدخل 1 - 
7 التعليم العالى 0.690 1 — 
ee |‏ إداري 0.585 0.788 1 


يقدم هذا تأكيداً بخصوص ترابط هذه المقاييس على مستوى المحافظة: بما أنها 
تعد جميعها طرقا تشير إلى الثراء النسبي لمحافظة ما. يستطيع المرء الآن تقليص 
الأبعاد - ببساطة - من خلال استعمال إحدى هذه الخصائص. وافتراض أنها مناسبة 
في التعبير عن مفهوم الثراء. ولكن يجب الأخذ بعين الاعتبار أن المتغيرات غير 
مترابطة بشكل كامل. ومن الواضح أنها تعبر عن أشياء ممائلة» ولكن غير متطابقة 
حول المحافظات. وفي المقابل» نستطيع إنتاج خاصية رابعة» تعبر عن معظم التباين 
في هذه المتغيرات الثلاث» منجزة - بالضبط - القدر نفسه من التقليص البعدي. 
ولكن من خلال سحب المعلومات من المقاييس الثلاثة جميعها. 

ونقوم بهذاء من خلال إيجاد المكوّن الرئيسي الأول لهذه المتغيرات الثلاث. 
ولكن» ماذا يعني هذا بالضبط؟ لندرس مصفوفة bls Vi‏ كما وردت في الجدول 
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8 فهى الشكل المقعد لمصفوفة تباين التغاير «(Variance—Covariance Matrix)‏ 
التى تصف الترابطات بين المتغيرات بطريقة لا تجد حلا لتباينات المتغيرات أنفسها. 


لبعدية «»امء حيث إن p‏ تمثل عدد المتغيرات قيد الدراسة. ويمكن للمرء أن يحدد 
لهذه المصفوفة» مجموعة من p‏ متجهات خاصة 3 Muted p‏ تعرف بالمتجهات 
الذاتية cll <(Eigenvectors)‏ تعيد نفسها مرات عديدة» تعرف بقيمة ذاتية 
(Eigenvalue)‏ عندما تُضرب فى مصفوفة التغاير. وتمثل هذه المتجهات خطوطاً 
مستقيمة» تصف التباين على نحو أكثر فاعلية في البيانات عندما يتم إسقاطها عبر 
سحابة البيانات ols‏ البعد-27. 

لدى كل اتجاه ذاتي» قيمته الذاتية» تخبرنا الأحجام النسبية بالأهمية النسبية لكل 
متجهة من المتجهات الذاتية على مستوى وصف تباين البيانات؛ أي إن المتجهة 
الذاتية ذات القيمة OSV‏ تصف الحصة الأكبر للتباين فى البيانات. كما تصف 
المتجهة الذاتية ذات القيمة الذاتية الموالية الأكبر» الحصة الأكبر للتباين المتبقي بعد 
ما تمت إزالة التباين الذي وصف من قبل المتجهة الذاتية الأولى؛ وهكذا. 

تدر الأشازة إلى أن هذا ينض ob‏ كل البتسيات Bo go ge AIAN‏ فن الزاونة 
القائمة (Right Angle)‏ لبعضها بعضاً؛ مما يعني عدم ارتباطها مع (متعامدة مع 
(Orthogonal to‏ بعضها بعضا. وإن ما يطلعوننا عليه» هو أمر مهم للغاية؛ بحيث Id]‏ 
أخذنا - Se‏ - رسم بياني للتشتت (Scatterplot)‏ الثلاثي الأبعاد في الشكل رقم 
61.8 فسنستطيع إدارة سحابة البيانات حول نقطتها الوسطى (Centroid)‏ (النقطة 
الوسطى)» |> سيو جد خط من الخطوط التي تقلص المسافات بينها وبين SLL!‏ 
نفسها على امتذاد محور X‏ 

وإن المتجهة التى وصفت هذا based!‏ ستكون المتجهة الذاتية ذات أكبر قيمة 
ذاتية» وسيمثل محوري ل و2» المتجهتين الأخريين. وبالنسبة إلى هذه السحابة من 
سحابات البيانات ثلاثية الأبعاد» سيكون محور × المكوّن الرئيسي الأول. أما 
Y OL; grea‏ و فوا Redd‏ فين It‏ ا LMT‏ 
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وعندما ننجز تحليل المكون الرئيسى لمتغيراتنا الثلاثة مستخدمين «الغامب»» 
قوق اھا Ala ner‏ العلؤاقات بين cell ll‏ الف اسم واک ای 
الرئيسة من خلال إنتاج رسوم بيانية ثنائية. وهذه ببساطة رسوم بيانية للتشتت ذات 
المكؤنات dead J‏ المشكلة للمحاور JEAN)‏ رق (2B‏ 


occprofman 





الشكل رقم 1.8: رسم بياني للتشتت الثلاثي الأبعاد من إنتاج «الغامب برو». 


ويعد JS‏ من الرسمين البيانيين الأعلى والأوسط» مكونا 1 - المكوّن الرئيس 
الأول - باعتباره المحور ×. وإن مسألة سحابة البيانات منتشرة أفقياً بشكل واضح. 
تبين معظم التباين في البيانات على طول هذا البعد - 79.3 / منهاء تحديدا (الجدول 
رقم 2.8). كما نستطيع أيضاً استكشاف أن التباين العمودي» يعد أكثر وضوحاً بعض 
الشيء في الرسم البياني أعلى Lidl‏ وهذا راجع إلى كون البعد العمودي هناء هو 
المكوّن الرئيس الثاني» الذي يصف التباين - في de‏ ذاته - أكثر مما يقوم به المكوّن 
الركيس الكالث: 
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0 5 10 


Component 2 (14.2 %) 





10 





5 0 
Component 1 (79.3 %) 





Component 2 (14.2 %) 


Component 3 (6.43 %) 


الشكل رقم 2.8: الرسم البياني الثنائي للمكونات الرئيسة (الغامب برو). 


الحدول رقم 2.8" المكونات» والقيم ASI‏ والتحميالات. 


التحميل 
القيمة 
الذاتية 
TF PO‏ 
ila: sna‏ 2.73 
(PC1)‏ 
IO Xo‏ 
ك 0.43 
(PC2)‏ 
آل ن SSE‏ 
0.19 
(PC3)‏ 


وصف 


التباين 


79.37. 
14.27. 


6.47. 
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0.11 


7 التعليم 


العالى 


0.93 
=U, 12 


-0.34 


/ مهني | 


إداري 


0.89 


a te 


0.26 


الجدول رقم 3.8: انحدار حصة أوباما من الأصوات حول المكونات الرئيسة. 


متوسط الدخل 

/ التعليم العالي 
/ الوظيفي/ الإداري 
المكوّن الأول PC1‏ 
المكون الثاني PC2‏ 
المكون الثالث PC3‏ 


الاعتراض 
جذر متوسط المربعات 
(RMSE)‏ 
R?‏ 


Adj. R? 


النموذج 1 النموذج 2 


-0.225 )0.029( 


1.148 )0.052( 


)0.061( 0.728- ات ج 


38.4 48.42 
28.44 13.69 

034 148 
.036 .147 


النموذج 3 


1.855 (0.159) 
-1.159 (0.375) 
-11.116 (0.558) 

38.44 
13.69 
.148 


.147 


إن النقاط الرمادية الغامضة في الشكل رقم 2.8» تمثل الحالات الفردية» ويمكننا 
إدراك أن عملية إدارة سحابة النقطة بحيث يمتد بعدها ذو التباين الأكبر على طول 
المحور الذي يحدده المكوّن الرئيس الأول. وتبين الأسهم كيفية ارتباط كل من 
المتغيرات التي تم قياسهاء بالمكوّنات الرئيسة» كما يمكن إدراك أن كل المتغيرات 
مترابطة ارتباطاً وثيقاً بالمكوّن الرئيسي الأول. وإن الأعداد التي تدعى تحميلات 
المعامل» تطلعنا على مدى ارتباط کل متغير من متغيرات المساهم بكل مكوّن من 
المكوّنات الرئيسية. ولاحظ of‏ كل الارتباطات القائمة بين المتغيرات والمكوّن 
الرئيسي lel Ss VI‏ من sl‏ ارتباط من ارتباطات ثنائية المتغير (Bivariate‏ 
Correlations)‏ بين المتغيرات التي شاهدناها في الجدول رقم 1.8. ويقدم المكون 
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الوكين الأول إذنه ملكها چ لجا تش ك فيه هذه القياسات OOS!‏ من دون أن 
pa‏ ان pie‏ على ان 


وسيستحدم المكون الرئيسي الأول بمثابة طريقة ممتازة في تقليص التعقيد 
التحليلي» باعتباره قياساً ملخصاً. ويمكن بيان ذلك من خلال العمل على انحدار 
نسبة التصويت لصالح أوباماء Yal‏ على مستوى المتغيرات المركبة الثلاثة (النموذج 
1 في الجدول رقم 3.8 ثم - ببساطة - على مستوى المركب الرئيسي الأول 
متوسط الدخل على 1,000 بغية تسهيل عملية التأويل. 


لاحظ إن لدى المكوّن الرئيسي علاقة إيجابية قوية» على الرغم من أن لدى 
المتغيرين المستقلين ارتباطات جزئية مع النتيجة (حصة أوباما من الأصوات) 
السلبية. وهذا يبين جدوى a a a a‏ 
التي ولدتها مسألة إدراج المتغيرات المترابطة للمتنبئ في النموذج. ولدى JS‏ 
المتغيرات على حدة. علاقة إيجابية ثنائية المتغير مع حصة أوباما من الأصوات. 
ولكن تبقى العلاقة الأقوى فى حالة المتغير الذي يقيس نسبة السكان البالغين 
الحا صلق ble al yd gle‏ ومن توه KAM aged glo gd Letts‏ الحاضاين على 
شهادة جامعية ثابتة» فإن OL SE‏ المتغيرين الأخريين تصبح سلبية. وفي هذا النموذج. 
نحتاج إلى تحديد - بحذر - مسألة أن العلاقة بين متوسط الدخل وحصة الأصوات 
te‏ هي سلبية فقط بعد ضبط كثافة خريجي الكلية. وإذا ما كنا - مع ذلك - نؤول 
كل متغير باعتباره عكساً للثراء الرئيسي» فإننا قد نسيء وقد لا نسيء تأويل الدليل 
عن IS‏ مو وخا وان غ ةط المعلوفة Sea‏ ف مكو ن رسي وجك 
يفضي بنا إلى القدرة على Oly‏ علا أك إتجانية وبمناظة بين هته الما هرمن ماهر 
التراتبية الاجتماعية» وحصة أوباما من الأصوات. 


وفي الجدول رقم 3.8 نلاحظ أن عملية الانتقال من النموذج 1 إلى النموذج 2 
- عندما نتنبا بأصوات أوباما - تقلص R?‏ بنسبة 77 /. ولكن كيف يمكن حدوث 
ذلك إذا كان هذا المكون نفسه يصف 78 / من التباين بين المتنبئات الثلاثة؟ 
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Vol‏ جو اب :ذلك أن المكر ن الرس aed oS‏ اساد إلى محر الج ولك 
يصف فقط علاقات بين المتنبئات الثلاثة . 


انياً: لا ارتباط أي من المتنبئات بشكل كبير مع النتيجة؛ فنسب الارتباطات 
القائمة بين حصة أوباما من الأصوات هى كالتالى: أما شهادات ALS‏ فهى: = ۲ 
8 . أما متوسط الدخلء فهو 5:0.102, وأما الوظائف المهنية أو الإدارية» فهى ۲ 
7. -. وفي الحقيقة» إن حصة أوباما من الأصوات أكثر ارتباطأ للغاية مع المكوّن 
الرئيسي الثالث (0.329- = (r‏ من الأول (p=.19290)‏ أو مع أي من المتنبئات 
بمفردها. وبتعبير مبسّطء إن الثراء مرتبط إيجابا مع حصة أوباما من الأصوات» ولكن 
العلاقة ضعيفة. ويساعد تحليل المكوّن الرئيسي - في الحقيقة - على الإفصاح - في 
هذه الحالة - عن أن غالبية العمل التوضيحي الذي تم إنجازه بواسطة ثلاث متغيرات 

وأخيراء لاحظ أن مقاييس التناسب (جذر متوسط المربعات» R?‏ و۸ المعدلة). 
متطابقة في النموذجين cl‏ و3. وهذا راجع إلى كون المكوّنات الرئيسة الثلاثة 
جميعهاء تضم كَل المعلومات في المتغيرات الأصلية المقاسة. 

ولبيان خاصية النموذج المبسط - بشكل حقيقي - تحليل المكون الرئيسي» تدعو 
الحاجة إلى البدء بمزيد من المتغيرات. ونجمع 22 متنبئاً لحصة أوباما من الأصوات. 
وننجز تحليل مكوّن رئيسي (الجدول رقم 4.8). وإن انحدار حصة الأصوات على 
مستوى 22 متغيرأء ينتج R?‏ من 0.5826 ومع US‏ فالنموذج معقد dda‏ والعديد من 
المتغيرات مترابطة. ويمكن استعمال تحليل مكون أساسي لتقليص بعدية البيانات. 
مستخدمين هذه المرة» تحكم تحليل المكوّن الرئيسي للستاتا (Stata)‏ 

كما يمكننا فحص القيمة المنخفضة للقيم الذاتية من خلال التوسل بالرسم 
البياني (Scree Plot)‏ بعد التحليل(الشكل رقم 3.8( ونستطيع رؤية انحدار العدد 
بشكل سريع في البداية» ويستوي عند حوالي خمسة. ويطلعني هذا على أن المكوّنات 
Nisl‏ 
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إن انحدار حصة أوباما من الأصوات على مستوى هذه المكونات السبعة» تنتج 
R?‏ من 0.4338 التي تمثل حوالي 75/ من التباين الأولي الموضح في النموذج 
بأكمله. وإن كان ذلك بقلة قليلة من المتغيرات. ولأن كل المكوّنات الرئيسة» هي في 
مستوى واحد Gl)‏ إنها dole‏ موزعة بمتوسط 0 وانحراف معياري Cl‏ فسيكون 
بالإمكان مقارنة معاملات الانحدار بشكل مباشر. وفي الجدول رقم 15.8 يمكن 
ملاحظة أن لدى المركبات cl‏ و02 و3» Sy‏ علاقات إيجابية مع حصة أوباما من 
الأصواتء وأن مركبي 1» و2» هي أقوى المركبات. وتر تبط هذه الم OLS‏ انا 
ALK BUSIL‏ و كان CS gl he) cla gus Le Mable‏ كما 5 We Jad‏ 
: مون O‏ وين v ai‏ 
بمتغيرات من فيل dd‏ كار السرة #ونسة القاضرين فى السكان (غلى التوالى): 


ومن الأشياء المفيدة بشأن تحليل المكوّن الرئيسي» تتمثل في حقيقة أن 
المكوّنات ذاتها غير مترابطة. وبسبب هذه العمودية» تصبح R?‏ لانحدار ما على 
مستوى Kall IS‏ مجموع قيم R?‏ انطلاقاً من الانحدارات على مستوى JS‏ 
مركب من OLS poll‏ على نحو فردي. وکل مرکب» يصف قسم فريد من التباين في 
متغير النتيجة» على الرغم من أن النتيجة لم تكن مدرجة (في الواقع) داخل تحليل 
المكوّن الرئيسي نفسه. ويخبرنا الجدول رقم 5.8 OL‏ المكون 2» يصف أكثر من 
1 من التباين في حصة أوباما من الأصوات بمفردهاء وأن أجزاء كبيرة من التباين» 
وصفت أيضا من قبل المكوّنات 63 65 و7. وإن العديد من المكوّنات غير مترابطة 
بشكل أساسي بمتغير النتيجة» وهو أمر متوقع بالنظر إلى أن النتيجة لم تستخدم في 
توليد المكونات. 


الجدول رقم 4.8: نتائج تحليل مكون أساسي. 
OG‏ القيمةالذاتية نسبةالتباين تباين تراكمي 


0.253 0.253 5.56 1 
0.469 0.215 4.75 2 
0.567 0.098 2.15 3 
0.637 0.070 1.53 4 
0.685 0.048 1.05 5 


199 


0.729 0.044 0.97 6 
0.770 0.041 0.91 7 
0.808 0.037 0.83 8 
0.841 0.033 0.73 9 
0.871 0.029 0.65 10 
0.896 0.025 0.54 11 
0.916 0.020 0.44 12 
0.932 0.016 0.36 13 
0.945 0.014 0.30 14 
0.957 0.012 028 15 
0.986 0.012 0.26 16 
0.978 0.009 0.20 17 
0.986 0.007 0.17 18 
0.992 0.006 0.14 19 
0.995 0.003 0.07 20 
0.998 0.003 0.07 21 
1.000 0.002 0.04 22 


ملاحظة: مدخل التغيرات؛ 3.114 = N‏ 


ويفضي بنا هذاء إلى العائق الرئيس لتحليل المكون الرئيسي: تأويل المكونات 
E‏ رتست Sl‏ اك تجاه EN a‏ 
TE‏ بعاد مكل EE‏ 
معظم المتغيرات» أو أي من المتغيرات ستكون ذات تحميل عالي على مستوى 
إحدى المكونات. وفي هذه الحالة» يكون تحميل العديد من المتغيرات متوسطا فقط 
على مستوى أي من المكونات» ولكن تحميلها مماثل على مستوى اثنين أو ثلاثة. 
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وان o bes‏ تأويل (sxe)‏ مكون ما عند أداء تحليل مكون رئيسي مع متغيرات 
عديدة» dale‏ ما يكون مباشرا. 


مخطط القيم الذاتية بعد تحليل مكون رئيسي 


الشكل رقم 3.8: رسم بياني يوضح قيماً ذاتية لمكونات من تحليل المكوّن الرئيس. 


وتتمثل النقطة الرئيسة فى أن الاستعمال الرئيسى لتتحليل مكون رئيسى» هو 
bed pct IEEE cgi Stel bat‏ کی gaat‏ ل Seay‏ انراق هنا على ساف 
sh‏ سير إذا أزدثا تقليص البعذية بالتزامن مع تحسين القابلية التأويلية» فستكون 
إحدى الاستراتيجيات الأفضل هو أداء تحليلات عامل» أو تحليل المكوّن الرئيسى 
le‏ معو الجر عات Lad LS col pital He dll‏ مع fod‏ الكو BM‏ 
لمتوسط الدخل» وللتحصيل العلمي» ونسبة الوظائف المهنية والإدارية التي تصدرت 
هذا القسم. كما يؤدي هذا إلى مزيد من المتغيرات الملخصة القابلة للتأويل التي يتم 
توليدها. ومع ذلكء إذا تم استخدام مجموعات منفصلة لمتغيرات مترابطة ارتباطا 
نظرياً لتوليد عوامل منفصلة؛ فسترتبط - على الأرجح - هذه العوامل ذاتها. وبالنتيجة» 
لن تصف هذه المجموعات مكونات منفصلة للتباين في المتغير التابع» وأن ارتباطاتها 
نفسهاء ستحتاج إلى الفحص كجزء من تحليل عام. 
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ملخص 

في هذا القسمء ركزنا على الطريقة الأكثر شيوعاً من طرق استخراج المتغير - 
تحليل المكوّن الرئيسي. وهذه الطريقة ليست طريقة من طرق التنقيب في البيانات في 
جوهرهاء ولكنها تستخدم بشكل اعتيادي من قبل متخصصين في التنقيب في 
البيانات» لجعل مجموعات البيانات المعقدة أكثر قابلية للطرق. وإنها لطريقة صارمة 
ودقيقة لتلخيص غالبية التباين المشترك بين مجموعة كبيرة من المتغيرات ذات عدد 
أصغر من المقاييس. لقد by‏ هنا أنه فقط 7 مكونات رئيسية» هي القادرة على إنجاز 
حوالي ثلاثة أرباع و22 من المتغيرات المنفصلة التي اشتقت منها في تنبؤ حصة أوباما 
من الأصوات eb‏ 2012 على مستوى المحافظة. وهناك بالطبع» مقايضة BAU‏ من 
أجل التقتير - التي تعد أكثر أهمية - تتوقف على ما تبحث عنه من نموذجك. 

تحليل المكون المستقل 

إن تحليل المكون المستقل (ICA) (Independant Component Analysis)‏ 
- الذي تمّ في الأصل تصوره من قبل عالم الحاسوب بيار كومون (Pierre Comon‏ 
)1994 - ينحدر من تحليل المكوّن الرئيسي» الذي يشبهه قليلاً. ويحرك الاختلافات 
بين التقنيتين» أنواع المشاكل التي تمّ تقديمها لها في البداية بغرض إيجاد حل لهاء 
والتي تناسبها بشكل أفضل. وربما تستخدم التقنيتان كلاهما باعتبارهما أداتان من 
أدوات تقليص البيانات أو التبسيط. لاستكشاف بنيات البيانات الرئيسة ضمن بيانات 


معقدة متعددة المتغيرات. 


وقد تستعمل التقنيتان كلاهما أيضاًء لحل مشكلة غير مختلطة (Unmixing)‏ أي 
فرز الإشارات المستقلة المختلطة les‏ في بيانات الترصد. ويمكن استخدام تحليل 
المكوّن المستقل في الحالة الثانية» ولكنها تستخدم بشكل أنسب بكثير في الحالة 
الأولى (تقليص البيانات) التي صممت من أجلها. كما يمكن استخدام تحليل 
المكوّن المستقل في النوع الأول من bel‏ ولكنه صمم للغاية الثانية (إشارات غير 
ممزوجة)» وهو حالياً تقنيتها الرائدة. 
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لقد صمم تحليل المكوّن المستقل باعتباره طريقة من طرق فصل المصدر 
الأعمى «(Blind Source Separation)‏ الذي يعد «مشكلة حفل الكو ot fas‏ حالتها 
الكلاسيكية. ودعنا نقل إن لدينا ثلاثة أشخاص يتحدثون في حفل كوكتيل» ونقوم 
بتسجيل محادثاتهم باستعمال ثلاث ميكروفونات موضوعة عشوائياً في الغرفة. JS‏ 
فك رفون شيو لك ا عه lose‏ عن Gila‏ الک Ais b-day‏ 
تفصل التسجيلات الثلاث» كي يتسنى لنا فصل - قدر الإمكان - صوت JS‏ فرد على 
حدة. وفي هذه الحالة يمكننا القيام بافتراض حاسم للاستقلال الإحصائي للموجات 
الصوتية المنبعثة من المتحدثين الثلاثة. إن الرفع من قوة هذا الاستقلال المفترض» 
يسمح لتحليل المكون المستقل أن ينجز بشكل رائع» لهذا النوع من مشكلة التصنيف. 

ويتميز تحليل المكوّن المستقل» إذنء عن تحليل المكوّن الرئيسي من خلال 
استخدام استقلال إحصائه — عوض عدم ارتباطيتة (Uncorrelatedness)‏ - باعتباره 
مبداً موجهاً من أجل فصل البيانات إلى مكونات. ولكن كيف يختلف الاستقلال 
وعدم الارتباطية؟ إن الاستقلال في الأساس حالة أقوى بكثير؛ فلكي يكون متغيران 
غير مرتبطين» يقتضي ذلك فقط عدم توافرهما على Be‏ خطية (Linear)‏ فيما 
بينهما. ومع ذلك» قد تكون لديهما علاقة Y‏ خطية مميزة. إن التعامد (Orthogonality)‏ 
أو عدم الارتباط» حالة ضرورية ولكن غير كافية بالنسبة إلى الاستقلال. 


والآن إذا كان متغيران غير مرتبطين» وموزعين بشكل عادي. فسيكونان - أصلاً 
- مستقلين. وبما أن تحليل المكوّن الرئيسي» يستخرج مكونات غوسية (Gaussian)‏ 
فإن الفرق بين عدم الارتباطية والاستقلال - بالنسبة إلى تحليل المكون الرئيسي - 
هو أمر خلافي. ومع ذلك» يفترض تحليل المكوّن المستقل. تكون البنية الرئيسة 
للبيانات من „ole‏ لا غوسية .(Non-Gaussian)‏ وقد تم وصف تحليل المكون 
المستقل - في واقع الأمر - باعتباره تحليل عامل لا غوسي. 


هذه نقطة مهمة» وجب التركيز عليها بالنسبة إلى مستخدمي تحليل المكون 
المستقل. ويجب استخدام كل الطرق في حالات تكون فيها مناسبة للمهمة القائمة 
وبالنسبة إلى كل جزء من الحالة إذا كانت الافتراضات التى توجه المنهجية تبدو معقولة 
بالنسبة إلى حالة العالم الحقيقي اذى تعن بماد Filme‏ إن لدى استخدام تحليل 
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المكوّن المستقل معنى» إذا وفقط إذا كنا نظن ان المكونات الرئيسة للبيانات مستمرة: 
ولكن غير موزعة - في الحقيقة - بشكل عادي إذا كانت لا غوسية بالحد الأقصى. 
و عملا ترتبط اللا AJL (Non-Gaussianity) age‏ طح (Kurtosis)‏ - «بلوغ 
ذروة» توزيع المكونات قيد الدراسة. وإن تحليل المكون المستقل» تستخرج المكونات 
التي بلغت الذروة بشكل كبير (Leptokurtic)‏ أو لم تبلغها (Platykurtic) LUU‏ 
ولهذاء إذا كان للمرء داع للاعتقاد في أن العناصر الرئيسة المؤسسة للبيانات قيد الدراسة. 
هي pele‏ مبنية بواسطة pole‏ أساسيةء إما مركّزة بشكل للغاية حول المتوسط 
Lely (Mean)‏ غير مركزة بخاصة. (أو على الأرجح» خليط من «البالكورتوز». 
و«الليبتو كورتيك))» فسيكون هذه الحالة تحليل المكون المستقل مثاليا. وفى المقابلء 
إذا كان شخص ما مقتنعاً Ob‏ العناصر الأساسية موزعة بشكل gale‏ 5 الو الج 
تجنب تحليل المكون المستقل لصالح تحليل المكون الرئيسي أو تحليل العامل. 
إن floss‏ المكوّن [ira‏ يعمل LS‏ للخطوات ASS‏ 


1. تحديد عدد المكونات المستقلة الواجب استخراجها: بالتوسل بتحليل المكون 
المستقل» يستوجب على الباحث تحديد poke‏ أو أبعاد أساسية عديدة يري 
أنها مؤسسة للبيانات القائمة. وإن هذا التدخل من قبل LoL‏ هو أكبر أهمية 
من تحليل المكوّن الرئيسى أو تحليل العامل. وفى هذه الحالات الأخيرة» تولد 
البرامج - dale‏ - عوامل si‏ مكونات عديدة. در دو المتغيرات المستعملة 
في التحليل» ويقرر الباحث بعد العملية (بعد تحليل رسم بياني ما باستخدام 
معايير أخرى) العدد الذي يتم الاحتفاظ به. إن تحليل المكون المستقلء 
بالمقابل» سيستخرج LB‏ عدد المكونات التي يشترطها الباحث سلفا. وفي 
حالات فصل مصدر أعمىء يتم - عادة GI-‏ مصادر الإشارة المستقلة. ومن 
ثم» فإن هذه المحدودية لا تطرح مشكلة. ولكن في حالات العلوم اللإنسانيةه 
حيث يكون - عادة - عدد العناصر أو المكونات الرئيسة غير معروف» يكون 
الأمر أكثر صعوبة. وإلى I>‏ علمي» فإن تقابلات الرسم البياني أو نسبة التباين 
الموضح. لم يتم تطويرها من أجل تحليل المكوّن المستقل. 


LS‏ تم في تحليل المكون الرئيسي. 
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3. إيحاد دوران فك الارتباط ob SU (Decorrelation)‏ اللا غوسية بالحد 
الاقصى. 

يمكن تحديد اللا عيارية -6(Nonnormality)‏ خلال إحدى الطريقتين التاليتين: 
e‏ الطريقة الأولىء فتجد المكونات التي يتنوع تفرطحها Ltl) (Kurtosis)‏ 
ه الطريقة الثانية» فتستخدم كمية إحصائية تدعى «الأنتروبي السلبي» 
«(Negentropy)‏ وتعني الفرق في الأنتروبية (Entropy)‏ المرتبطة بما 

يمكن توقعه في توزيع عادي ذي تباين ممائل. 

مثال تحليل المكون المستقل e.‏ 

التجارية الرئيسة» مثل «الستاتا»» والحزمة mnt ies‏ ا 
التحليل الإحصائي (ومع ذلك» يمكن للمرء برمجة تحليل المكوّن الرئيسي بالنسبة 
إلى «الستاتا» أو نظام التحليل الإإحصائي» بالتوسل بقدر كاف من القطع الرياضية). 
ee‏ عت اريت E‏ و ا را 
المكرّن المستقل باستخدام حزمة R‏ التي تدعی bs‏ ا ee‏ 586 


.(Marchini, Heaton, and Ripley 2012) (FastICA) 


Ll‏ بخصوص تحليل المكوّن الرئيسي» فنستخدم بيانات انتخابات 2012 على 
بتحميل البرنامج فى ذاكرة التشغيل :(Working Memory)‏ 
Install. packages (‘‘fastICA”’)‏ 


Library (“fastICA”) 


)4( التفرطح (Kurtosis)‏ تعني Jal‏ من ذروة منحني التردد التوزيعي (المراجع). 


)5( ورد مصطلح أنتروبي (Entropy)‏ كثيراً في الكتاب وهو يعني الانخفاض التدريجي في الاضطراب» أو 
انعدام النظام أو إمكانية التنبؤ. وبصورة أدق» في نظرية المعلومات يعتبر الأنتروبي مقياس لوغاريثمي لمعدل 
نقل المعلومة في رسالة أو لغة معينة (المراجع). 
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وبعد ذلك» نقوم بربط أعمدة المتغيرات التي نرغب في استخراج المكونات 
المستقلة منهاء ونخزنها فى مصفوفة ×. وهنا ننتقى 21 متغيرا منفصلاء ونقيس 
خصائص ديموغرافية والمستوى الاقتصادي والاجتماعى للمحافظات» ونشكلها فى 
مصفوفة 21×3114. 


x<- cbind (Inpopdens, ageltl8, agel834, age6S5over, perwhite, 
perasian, perblack, perlatin, edhigher, edhs, edlhs, unempmale, 


unempfem, perpov_q, imdens, divorce2per, samesexper, evprotl0, 


hhsize, occprofman, medinc) 


ir 5 5 507‏ 
إن برنامج تحليل المكون المستقل السريع» ينفذ من خلال الرمز التالي: 
ical<-fastICA (x, 5, alg.typ = «parallel», fun = «logcosh», row.norm‏ = 


(TRUE, maxit = 200, tol = 0.00001, verbose = TRUE) 


Ges‏ ا Le‏ فسن AST olay E aay‏ ي اف 
«ical»‏ من خلال إنجاز دالة تل المكون المستقل السريع على مستوى الشيء X‏ 
مصفوفتنا المكونة من 21 متخيراً. Ll‏ :الما الموالي. فيخبرنا بتحليل المكون 
المستقل ial neil‏ و ا العدد المختار - في 
ode‏ الجالة — Leh he‏ يها J) es YT‏ عر ALG ab‏ أن إلى نظرية tary Cle‏ لف 
انتقينا alg.typ = «Parallel»‏ مما يعني أن ك E‏ المكونات في yi‏ 
واحد. وفي المقابل» إذا ما حددنا «الانكماش)» ستستخر ج المكونات pols ols‏ 
ثمة توجيه كبير بشأن هذا cyl all‏ وإذا ما كان المرء Metre‏ فقظ ياو استخراج 
المكوّنات المستقلة من البيانات» فلن يكون الأمر مهما كثيرا؛ فالمكوّنات المنتقاة فى 
تحليلناء بالاستخراج الموازي أو التسلسلي» غير مترابطة على Som‏ سواء ومترابطة 
باعتدال بعضها ببعض. 
ثم» هناك سلسلة من الخيارات المترابطة بسرعة التقارب. وإن تحليل المكوّن 
المستقل هو خوارزمية تكرارية» تبحث عن مكونات غير مترابطة لا غوسية بالحد 
الأقصى. ولكن هناك طريقتين مختلفتين لتعظيم اللا غوسية» المحددة عبر الخيار 
الممتع -(Fun Option)‏ ويمكن انتقاء سواء دالة أساسية (Fun = «exp»)‏ أو 
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خوارزمية جيب التمام القطعي Fun = «Logcosh») (Hyperbolic Cosine)‏ 
وكلاهما يعمل dis‏ بحسب مطوري تحليل المكون الرئيسي» ولكن «Logcosh»‏ 
في تجربتنا أسرع قليلاً. وبعد ذلك» نحتاج إلى اختيار ما إن كان يستوجب على سطور 
مصفوفة البيانات» التطبيع قبل التحليل. Oly‏ انتقاء TRUE‏ يفضي إلى التقاء أسرع 
قليلاً. ويراقب الخياران المواليان بشكل أكثر مباشرة» عدد التكرارات التى تحدث 
قل أن نح cual pl)‏ أن E‏ تات ما l‏ 

أولاً: نختار الحدّ الأقصى من عدد التكرارات لإنجازها. 


ثانياً: نختار التسامح» الذي يعد كمية إحصائية من التناسبية. وعموماًء إن الالتقاء 


سريع - إلى حد ما - مستخدمين تحليل المكوّن المستقل السريع» ومن cad‏ فإننا 
ننصح بتحديد «الماكسيت» (Maxit)‏ عالياً نسبياً. ويجب أن ينظر إليه باعتباره ضمانة 
أكثر من أي شيء آخر. وفي المقابل» على المرء مراقبة جودة الالتقاء مع plas‏ 
التسامح. وستقود القيم الأعلى إلى التقاء أسرع» ولكن ستكون أقل موثوقية. ولهذاء 
ننصح بتحديد «التول» (tol)‏ في مستوى منخفض. وفي بياناتناء على الرغم من تحديد 
«التول» لشىء ضئيل بشكل مطلق (مثل 0.000000000002 = op «(tol‏ الالتقاء 
ol pee (Se Se‏ و RE Us‏ 
أكثر» يستغرق وقتاً أطول. وأخيراً - وكما هو الحال بالنسبة إلى العديد من تحكمات 
-R‏ هناك خيار الفيربوز .CVerbose)‏ وإن اختيار TRUE‏ سيسمح لك بمعرفة عدد 
التكرارات التي تحدث قبل الالتقاء وما هو التسامح المحدد في كل خطوة. 


icai<-fastIcCh(x, 5, alg.typ = "parallel", fun = "exp", row.norm=FALSE, maxit=200, أعذمء‎ .40001, verbose=TRUE} 
entering 

ritening 

metric FastICA using exponential approx. to neg-entropy function 
eration 1 tol = 0.2260052 

seration 2 tol = 0,0304055} 

eration 3 tol = 0.604389073 

eration 4 tol = 0.001747418 

eration 5 tol = 0.0008245586 

eration 6 tol = 0.6002008048 

veration 7 tol = 5.819656ée-95 

ceration 8 tol = 1.502786e-05 

eration 9 tol = 3.9115126e-06 


الشكل رقم 4.8: مُخرج تحليل المكوّن المستقل RB‏ موضحاً التقاء النموذج. 
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ونشغل التحكم» ونحصل على المخرج المبين في الشكل رقم 4.8. ويطلعنا هذا 
نموذجي مع R‏ فإن المخرج الآني غير مفيد. ولكن يمكن النظر إلى بناء الشيء الذي 
(caD ol 5‏ في الشكل رقم 5.8. 

ولاحظ أن للشىء ote‏ من المكونات (تظهر هنا باعتبارها X, $K, etc.)‏ $( 


والأنسب بشكل مباشر هي أسطر تسمى  SA‏ وأما 85.8۸» فتحتوي على ترجيحات 
لكل متغير» تستخرج منها العوامل» ولكن النظر إليها بشكل قابل للفهم» يقتضي 


Pairs (ical $S) 


ening 
tric FastiCA using exponential 
Iteration 1 tol = 0.2260052 
teration 2 tol = 0.03040553 
= 0.004389073 


4 tol = 0.001747418 
5 tol = 0.0008245586 
- 0002008048 


1834" “age6Sover" ... 

.7 20.3 15.58 79.03 ... 
9 1634" 
0 


: NULL 
z chr [1:21) “lnpopdens” “agelti8" “age 
attr(*, "“scaled:center")}= Named num [1:21] 3.81 23 
, “names")= chr {1:21} "1 pdens" 
1, 1:5) -S.00e-09 -3.2 1 
+ 1:5] 0.8953 0.3479 0.2663 


age "ageéSover" ... 
60e-08 ... 





الشكل رقم 5.8: مُخرج تحليل المكوّن المستقل في R‏ 
موضحاً pols‏ مخزنة فى الشىء ical‏ 


إن الأسطر المبينة في المخرج ۸ في الشكل رقم 6.8 مرتبط بمتغيراتنا الأصلية؛ أي 
أعمدة» مترابطة بمكونات خمسة. كما أن المكونات المستقلة» مثل المكونات الرئيسة» 


209 


المتقير 1 LU‏ هنا الكوارزهة الطبيعية MSS‏ السبكانية BD‏ ها LIS‏ عبر السظر 
الأول من الشكل رقم 6.8» فسنجد فقط تحميلات سلبية). وأما المتغير 5 للسطر» فهو 
نسبة سكان المحافظة من البيض غير الإسبان. وإن القراءة عبر هذا السطر يفصح عن أن 
هذا المتغير» مرتبط إيجابا بالكل» ما عدا المكوّن الثاني. ويمكن إنتاج مصفوفة الرسم 
البياني للتشتت (الشكل رقم 7.8) التي ستبين استقلالية المكوّنات: 





الشكل رقم 6.8: تحميلاً المتغيرات (سطور) على مستوى المكوّنات (الأعمدة) من 
تحليل المكون المستقل (باستخدام تحليل المكون المستقل السريع لحزمة CR‏ 


والآن» يمكننا استخدام هذه المتغيرات باعتبارها متنبئات في انحدار ماء متنبئين 
حصة أوباما من الأصوات في محافظات معينة (الجدول رقم 6.8). ويبدأ الانحدار 
فى العمود المسمى (1) بالمكوّن المستقل الأول وبعدها يضيف الباقى» الواحد تلو 
الآخر. ومن المهم التذكير بأن المتغير التابع لم يكن عضواً من مجموع المتغيرات 
التي استخرجت منها المكوّنات المستقلة» وبالتالي» OB‏ أي تباين في المتغير التابع 
الذي تمّ شرحه من خلال المكوّنات المستقلة» إما بسبب الصدفة العشوائية» أو بسبب 


210 


علاقته بالمتغيرات الأصلية في المجموعة. ومن المفيد أيضاً التذكير بأن نموذج 
انحدار ماء الذي يستخدم هذه المجموعة الكاملة من المتنبئات (أي قبل القيام بتحليل 
المكوّن المستقل)» كان لديه R?‏ بنسبة 5855. 


.6 .4 2 0 2 





S 4 1 3 


6 4 2 0 2 a 02 4 3 4 4+ 89 


الشكل رقم 7.8: مصفوفة الرسم البياني لتشتت المكونات المستقلة (في 18). 
وتخزن القيم الحقيقية JN‏ مكون في JS‏ حالة على حدة» في المكوّن S‏ 
وستكون أيسر - نوعا ما - النظر في هذاء إذا حولنا 5 إلى سلسلة من متغيرات خمسة: 

Comp 1<-ical$S{1 : 3114, 1} 

comp2<-ical$S {1 : 3114, 2} 

comp3<-ical$S {1: 3114, 3} 

comp4<-ical$S {1: 3114, 4} 

comp5<-ical$S {1: 3114, 5} 

الجدول رقم 6.8: انحدار حصة أوباما 
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من الأصوات على مستوى المكوّنات من تحليل المكوّن المستقل. 


(5) (4) (3) (2) (1) 
-5.085%* -5.085** -5.085%  -5.085** — -5.0855¢** 1 المكوّن‎ 
(0.214) (0.215) (0.238) (0.238) (0.2496) 
4.213% 4.213% 4.213% 4.214% : 2 المكوّن‎ 
(0.214) (0.215) (0.238) )0.238( 
(0.214) (0.215) 2 (0.238) - - 3 المكوّن‎ 
0.035 0.035 0.035 
5.667% 5.667" - 3 z 4 المكوّن‎ 
(0.214) (0.215) 
10“ - 3 - 5 المكوّن‎ 
(0.214) 
(0.214) (0.215) (0.238) (0.238) (0.2496) ثابت‎ 
38.443 38.443 38.443 38.443 38.4431 
3517. 3446. 1984. 1984. 1177. R? 
3507. 3437. 1977. 1979. 1174. Adj.R? 
x** p< 001. 


وتظهر بعض الأشياء مباشرة من التحليل 


& 


رل Kel ALIS de parcel Of‏ ات الما ال فاك tye AST ga Le‏ 
نصف القوة التوضيحية لنموذج المتغير الأصلي. وهكذاء على الرغم من أننا أنجزنا 
تبسيطا كبيرا للبيانات» of‏ ذلك تم على حساب تخفيض معتبر للقوة التنبؤية 

لتموذجنا. 


ثانياً: إن مسألة أن المتغيرات غير مترابطة فيما بينهاء تم إظهارها مباشرة من 
خلال كون - كما هو الحال بالنسبة إلى تحليل المكوّن الرئيسي - معاملات الانحدار» 
لا تتغير عند إضافة مكونات إضافية. وفى الحقيقة» إذا تغيرت Wad‏ فسيتضمن ذلك 
رفاظا كبيرا من tall‏ اهب abd Leo oy‏ ب Sled E‏ سد كيه Lid‏ 
تقديم تلميحات حول ما إذا كانت المكونات مترابطة أم غير ذلك» وليس ما إذا كانت 
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الثاً: ثمة شيء غريب يحدث للأخطاء المعيارية في هذا التحليل؛ فهي نفسها 
بالضبط بالنسبة إلى JS‏ المكوّنات (والاعتراض) داخل النماذج. وهي La‏ متشابهة 
عبر النماذج كلها. وهذا ربما راجع إلى أن المكوّنات لا غوسية بالحد الأقصى. 
وباعتبارها متغيرات غير طبيعية (التي تعد غير طبيعية بشكل Calis‏ فهي تخلط 
بالضبط محاولة حساب lat‏ معياري» الذي يفترض المعيارية. وأخيراء إن المتغير 
الثابت» لا يتغير تماما انطلاقاً من نموذج إلى آخر. وهي - في الواقع - متساوية مع 
متوسط المتغير التابع بالنسبة إلى البيانات جميعها. (نعم إن متوسط الأصوات بحسب 
المحافظات كانت 38.44/. وقد فاز أوباما بمهارة فى المحافظات ASV)‏ كثافة 
سكانية» وخسر المحافظات ذات BUS‏ سكانية قليلة» والسكان متمركزون في عدد 
صغير نسبياً من المحافظات). وهذا راجع إلى كون البيانات قد تم تعييرها قبل 
استخراجنا للمكونات. وبالتالي» إن کل المكونات لها متوسطات قريبة جدا من 
الصفر. وكون أن المتغير الثابت يبقى في متوسط السكان» فإن ذلك يعني أنه صحيح 
أصلا. 

خلاصة 


تستخدم طرق استخراج المتغير لتقليص عدد المتغيرات قبل مباشرة التحليلء 
عبر استكشاف عدد صغير من مكونات عوامل غير مترابطة» تلخص lase‏ أكبر من 
متغيرات مقاسة. وفى مقابل طرق تقليص البيانات التى تمت مناقشتها سابقاً (مثل 
الانحدار التدريجي)ء التي تنتقي المتنبئات الأكثر أهمية من بين قائمة أطول لمتنبئات 
المرشح» تحاول طرق استخراج المتغير تلخيص جميع المتغيرات المتاحة. وبشكل 
أدق» يقوم استخراج المتغير بعملية تحليل مصفوفة التغاير التي تصف العلاقات بين 
Gi aaa‏ المقاسة. إن LoS‏ المكون الرتسى:.وتتحلي AAS eNOS‏ 
يجار a‏ ناث نقعيات لطاع Wiel oles‏ 

وهذه طرق غير خاضعة للرقابة والإشراف: إذ لا يشركون متغيراً تابعاًء بل 
يلخصون - عوضاً عن ذلك - العلاقات بين الخصائصء أو المتنبئات» أو المتغيرات 
ال :و لسوت العمل هناك ا بير العسبيط: ABM y‏ وقفلا pends‏ الوك نات 
المستخرجة عموم التغاير المجسد في العدد الأكبر للمتغيرات المقاسة. علاوة على 
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ذلك» حتى عندما تلخص المكونات المستخرجة معظم التغاير بين المتنبئات» لا 
يترتب عن ذلك كون أن النموذج يستخدم تلك المكوّنات المستخرجة للتنبؤ بمتغير 
تابع» سيمنح بالضرورة تنبؤات جيدة. وفي الحقيقةء وجدنا مرارا وتكرارا - في 
الأمثلة المبينة أعلاه - أن المتغيرات الأصلية التي تم اتخاذها كمجموعة» كان أداؤها 
أفضل من حيث تنبؤ متغير تابع» من المكؤنات المستخرجة منها. ومع ذلك تستعمل 
تقنيات JS‏ من تحليل المكوّن الرئيسي» وتحليل المكوّن المستقل» من قبل المختصين 
في التنقيب في البيانات» خاصة في حالات حيث وجود عدد كبير جداً من متغيرات 
مقاسة P)‏ كبيرة جداً) حتى أن المحلل يجد نفسه مضطراً إلى تلخيصها أمام قلة 
الخيارات» من خلال استخراج عدد أصغر من المكونات. وقد يصف مختصو 
التنقيب في البيانات عملية الاستخراج هذه بتقليص أبعاد البيانات» مع الحفاظ على 
بنيتها أو نمطها الأصلي في الوقت نفسه. 
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wld) النصل‎ 
o lakaat i 


تعد مصنفات التنقيب في البيانات» برامج تتنبأ بفئة أو بصنف متغير تابع ماء 
تصنت oldie Fas‏ افردية. de‏ سيل الالء bd‏ سابقا AY Caras‏ وفق 
a Nc AP he ic tal 7‏ 
ؤي من خلال نخدا مجموعة من ميرت مسقأ خصائص inet‏ 
شكل احتمالية تصنيف حالة معينة ما» ضمن فئة أو صنف معين - لتصنيف الفئة التى 
2 : 

أما بعض الأنواع GEM‏ من خوارزمية التصنيف» فلا تستخدم نموذج تنبؤي 
من هذا النوع» وإنما تستخدم الطرق اللا (Non-Parametric) doles‏ للبث في 
ينك pace‏ قبح ماك ی وا Lede arias |S Joti Sy‏ تق 
الإشراف (Supervised Learning)‏ : من خلال استخدام مجموعة بيانات تدريب. 
تضم حالات» يعرف الشخص من أجلها التصنيف الصحيح لكل ترصد على حدة 
بغية تطوير نوع من أنواع قاعدة تنبؤية. ويمكن تطبيق تلك القاعدة على مجموعة 
بيانات حيث لا يعرف الشخص فئة أو صنف كل حالةء كى نصنف هذه الحالات 
الجديدة. 


215 


وفي الأقسام الآتيةء نقدم أمثلة من مصنفات مختلفة عديدة» مستخدمة من قبل 
مختصين في التنقيب في البيانات. فقد قام علماء الحاسوب بتطوير العديد من 
الخوارزميات من أجل عملية التصنيف. بحيث تختلف هذه الخوارزميات تبعا لسرعة 
عمليتها ودقتها. علاوة على ذلك تعمل بعض الخوارزميات أفضل بالنسبة إلى 
مجموعات بيانات معينة مقارنة بأخرى. كما أن الممارسين لا يعرفون عادة - وبشكل 
مسبق - أي نوع من المصنف. الذي سيعمل على النحو الأفضل بالنسبة إلى بياناتهم. 
ومن ثم» لا غرو أن يتم تجريب عدة مصنفات ومقارنة دقتها على مستوى اختبار 
مجموعات البيانات» أو حتى الجمع بين التنبؤات المستمدة من هذه المصنفات 
المختلفة في مجموعة واحدة» فيما أصبح يعرف بعملية التعلم بالمجموعة. وغالبا ما 
تسفر عملية الجمع بين مصنفات مختلفة في مجموعة واحدة عن نتيجة أكثر دقة 
مقارنة مع أفضل المصنفات الفردية. 

-k‏ أقرب الجيران 

إن مصنف k‏ أقرب الجيران (KNN)‏ طريقة تصنيف لا مَعلميةء وباعتباره 
مصنفاً من المصنفات» فهو بسيط جداً وبديهي. تصور أن لدينا مجموعة S‏ من نقطة 
بيانات» نود تقدير عضويتها ضمن فئة من أصل اثنتين. ولدينا معلومات عن قيمة هذه 
النقاط على مستوى متغيرات أخرى» ×. وهذا يعني - من بين أشياء أخرى - إمكانية 
تحديد موقع كل من نقاط البيانات في 5 في حيز متعدد الأبعاد. المحدد من قبل هذه 
ol eal‏ المدعلة XI‏ ويم تحديد JSON pat Gal BT‏ عضو من 5 من 
حيث وجود قيم مماثلة على مستوى × - من بين نقاط البيانات الأخرى. وبعد ذلك 
يمكننا تخصيص كل نقطة بيانات Si‏ إلى الفئة التي ينتمي إليها معظم أقرب جيرانها. 


فعلى سبيل المثال» قد تكون لدينا بيانات تصف مجموعة مكونة من أطفال 
يبلغون من العمر ثلاث أو أربع سنين. وانطلاقاً من هذه البيانات» نعرف بعض الأشياء 
عن IS‏ الأطفال دخل أسرهم» وتحصيلهم العلمي» ومنزلة القوة العمالية» وكثافة 
السكان» وعتوسظ Sell feat‏ شالك هدادعا وغيرها .ون هذه lol‏ 
LS‏ اا م KNN‏ لاسو fab dad y‏ ينا فر العدوسة Sy‏ ما 
عن طريق تخصيص لذلك الطفل» وضعية ما قبل المدرسة للأطفال الآخرين الذين 
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يعدون أكثر ممائلة له من حيث قياسات تدابير الأسرة والجوار. وفى الأساس. إن ما 
نقوم به في هذه التقنية» هو أخذ حالة» والبحث من حولها في STOVE‏ مشابهة. 
واستخدام هذه الحالات لتخمين عضوية الفعة المنتمية إليها. 


ويمكن استخدام هذه التقنية للقيام بأكثر من مجرد تصنيف ثنائي؛ إذ بالإمكان 
استخدامها أيضاً من أجل تصنيف متعدد الفئات. (على الرغم من أن احتمالية حدوث 
«تعادل» يزداد مع عدد الفئات) » أو من أجل تنبؤ قيمة نتيجة مستمرة. وفي هذه الحالة 
الأخيرة» تقوم بحساب قياس المركزية انطلاقا من الجيران) الذين يعدون - وعلى 
نحو أكثر شيوعاً - الوسيلة أو الوسيطة) وتطبيقها باعتبارها تنبؤاً للحالة قيد الدراسة. 
ومن OB ad‏ انحدار KNN‏ مماثل تماما لتقنيات التمهيد المحلي» القائم على النواة 
مثل انحدار خطي (Altman, 1992) Jove‏ 


هناك بعض التساؤلات الأولية التى ستصادف المرء قبل أداء هذه التقنية: 


one oS AGI‏ اللجير ان الاين Gate‏ على الحرم اللشارهم ؟ يمك لدا 
الاختيار أن تنتج عنه نتائج هامة» على خلفية إمكانية تخصيص حالات إلى فئات 
متعددة استناداً إلى ما إن تم - مثلاً - الإحصاء» ثلاثة من أقرب الجيران» عوض سبعة 
منها. وفى صياغة سابقة» is igh)‏ من كوفر وهارت )1967 (Cover and Hart‏ أن 
placer‏ جار واحد يمكن أن يكون bats‏ أو أفضل أحياناً. ومع ذلك اقترح هاستي 
(Hastie)‏ وتيبشيرانى (Tibshirani)‏ (1996) استناد مثالية جار واحد - بشكل كبير 
Susi es Gare Nea‏ :وان EEE Seiler‏ 
للبحث عن حالة ماء تزداد مع !5 abo‏ عدد المتنبئات المستخدمة» 9 GUS‏ بجذب مزيد 
من الحالات البعيدة إلى أقرب الجيران قدر الإمكان. 

ويشمل حل إشكالية عدد الجيران المستخدمة - ودون غرابة - تقنية لا مَعْلمِية 
أخرى. ويمكن للمرئ استخدام الصلاحية المتبادلة لانتقاء أفضل قيمة KI‏ وتحديداء 
يمكننا تقسيم البيانات عشوائياً إلى ثلاثة أجزاء: 

8 التدرنب: 

6 الصلاحية. 

۵ بيانات الاختبار. 
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ونقوم بتوليد تقديرات باستخدام عدة قيم مختلفة من K‏ في مجموعة التدريب. 
ثم نقوم بانتقاء أفضل قيمة k‏ باستعمال مجموعة الصلاحية لمعرفة نوع k‏ الذي ينتح 
تصنيفاً أكثر دقة. وأخيرأء نقوم بتقييم التناسب في مجموعة بيانات الاختبار. 

أما المسألة التمهيدية الثانية» فتتجلى في تحديد المعيار» للبت في نقاط البيانات 
الأكثر قرباً؛ أي ما هو نوع المسافة التي سيستخدمها المرء في تحديد النقاط «الأكثر 
قرباً». ومن المألوف جداً أن تستخدم تقنيات KNN‏ مسافة أقليدية» أو مسافة «مانهاتن» 
(مجمع المدينة) أو مسافة مالينوفسكي» ولو أنه يمكن استخدام أنواع أخرى من 
المسافة gf Vlale)‏ ع (SoM fer‏ 

أما ILI!‏ الثالثة - وفي علاقة بالمسألتين السابقتين - فهي تهم «عملية فرز 
ol pe VI‏ أي إنه» بعد اختيار ck‏ وتحديد كيفية قياس المسافة» سنحصل بالنسبة إلى 
كل نقطة من LW‏ البيانات الأخرى» على مجموعة بيانات أخرى ل 4, التي تقدم 
معلومات من أجل تنبؤ التصنيف. k bla oly‏ هي في cola‏ «التصويت» على 
العضوية أو الصنف للحالة المستهدفة. ولكن» بما أن هذه النقاط من نقاط k‏ قد لا 
تتفق» فكيف يجب de bde‏ هذه الأصوات؟ فهل ينبغي عدها جميعاً على قدم 
المساواة؟ أم يجب علينا اعتبار نقاط البيانات الأقرب أكثر إفادة؟ عموماء ينبغي 
ممارسة التمرين من خلال ترجيح الأصوات عكسياً للمسافة انطلاقاً من الترصد 
المعني بالدراسة )1976 (Dudani,‏ وبالقيام lg‏ بشكل عرضي» يخفف إلى حد ما 
من OLS‏ اختيار ck‏ أي إنه لما نزيد من قيمة ck‏ فإننا نقوم بالزيادة في حجم الحيز 
حول نقطة البيانات التي نبحث من خلالها عن معلومات حول عضوية الصنف. 
وبالقيام بذلك نزيد من احتمال ارتكابنا لخطأ ماء لآنه يمكننا «العبور» من حيز ماء 
ج Se ie a‏ مح ف octal‏ ريده هذا مهما عاض 
بالنسبة إلى حالات الحدود) أي إن الحالات في فئة واحدة WLI SV‏ لحالات في 
الفئة الأخرى). ولكن الترجيح بواسطة مسافة عكسيةء يقلل من أهمية الحالات 
الأكثر بعداء ويزيد من تأثير الحالات الأكثر قربا. 
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وثمة مسألة تمهيدية أخيرة مهمة» تتجلى في عدد متغيرات المتنبئ التي تستخدم 
فى تحديد المسافة - ال × التى نوقشت سابقا. وعلى ما يبدو - وعلى نحو حدسى 
oe‏ عار اكد غاد شن الت كون مقا ل جا أذ لك ين شان أن 
يزودنا بمزيد من المعلومات التي تهم الحالات التي تعد «فعلاً» مماثلة» عوض فقط 
كونها متمائلة على مستوى عدد قليل من خصائص مختارة عشوائيا للغاية. ومع ذلك 
إن الذي عرضء هو إمكانية أن يطرح وجود قدر كبير من المعلومات» مشكلة. وإن 
ote obj‏ السمات gh‏ المتنبئات» يزيد من أبعاد حيز البحث» ومن ثمء الحجم العام 
لحيز البحث (فكر في الانتقال من lo‏ تحيط بنقطة ما إلى مجال ذي شعاع Radius‏ 
تلك النقطة). وبقيامنا بذلك. ينتهى بنا المطاف إلى زيادة عدد «الجيران» المتساوية 
الأبعاد ine il (Equidistant)‏ قيد الدراسة (أي تلك التي نريد تصنيفها). 
ومن خلال عدد كاف من السمات» ننتهي بحيز بحث» تم وصفه من قبل حيز SI)‏ 
p>‏ فى nobel‏ حيث إن 1 يشكل عدد السمات) الذي يشكل سطحه عددا كبيرا من 
نقاط البيانات التي «المتعادلة» من حيث المسافة من نقطة المركز. وفي هذه الحالة: 
يتم تسوية طريقة »ا-أقرب الجيران على نحو حتمي من قبل لعنة البعدية Tibshirani)‏ 
(and Hastie‏ )1996(. 


ويقتضي وجود عدد كبير من السمات - إذن - طريقة من طرق تخفيض البعدية 
- سواء كان ذلك باستخراج السمة أو انتقائها (أو حتى الجمع بين الاثنين). كما 
يمكن استخدام المكونات الرئيسة أو الإسقاط العشوائي لطي أبعاد الحيز؛ أو يمكننا 
رسم «(اللاسو» (Lasso)‏ تدريجياء أو انتقاء الأبعاد الأكثر أهمية باعتماد المراحل. 

ولم يجد !-أقرب الجيران أبدأ مأوى له في العلوم الاجتماعية على الرغم من 
حضوره فى أشكال مختلفة منذ ea gäe‏ (باستثناء حالة واحدة, انظر (2010 (Qian‏ 
واستعماله فى إعدادات تطبيقية مثل إدراك الوجه. وتصنيف النصوص 6 والبيولوجياء 
وفحص 5 تطبيق الائتمان. 

)اقرب الجيران باستخدام منمذج الحزمة الإحصائية للعلوم الاجتماعية 


لقد تمت كتابة برامج لتشغيل مصنف من مصنفات o i-k‏ الجيران لدی گل من 
المتالاب Ry (MATLAB)‏ (حزمة !-أقرب الجيران). وإن حزمة التنقيب فى البيانات 
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للحزمة الإحصائية للعلوم الاجتماعية - المنمذِج - لديه أيضاً روتين !-أقرب الجيران. 
وهذا ما سنبينه أدناه» بحيث نوضح قدرته التنبؤية باستخدام بيانات من مسح المجتمع 
الأميركي. واستخدام ع!-أقرب الجيران للتنبؤ بوضع التأمين الصحي. 

إن المنمذج نظام سهل المنال» طور لاستخدامه من قبل مختصين في التنقيب في 
البيانات - أشخاص في مجال الأعمالء والتسويق» وغيرهما. ومثله مثل بعض 
التطبيقات الحديثة الأخرى) («الرايبدماينر)» kal i‏ السريع «(RapidMiner)‏ 
(Ne‏ فإن لدى شكله Molly)‏ بناء مستخدم التحليلات. ويتكون is‏ تيار من 
«سلسلة عقد» متصلة» يمثل IS‏ منها سلسلة من العمليات التي طبقت على البيانات. 
وإن نقر أيقونة عقدة ما نقرأ مزدوجأء يفتح نافذة ols‏ خيارات عقّدة محددة. وهذه 
النوافذ مماثلة تماما لتلك الموجودة في إحصاءات الحزمة الإحصائية للعلوم 
الاجتماعية» كما يتم تبديل الخيارات بشكل كبير من خلال التأشير والنقر عوض 
الصيغة. 


لقد قمنا بجمع عينة عشوائية مؤلفة من 6,000 حالة من مجموعة بياناتنا الضخمة. 
OY‏ منمذج العديد من برامج التنقيب في البيانات الأخرى» يمكن تشتغيله ببطئ عند 
أداء عمليات معقدة» انطلاقا من بيانات ضخمة. بالإضافة إلى dia‏ قمنا بموازنة 
البيانات على النتيجة عند معاينتناء لنستخلص عينة مؤلفة من 6,000 حالة مقسمة 
بالتساوي إلى حالات تتوافر على تأمين صحي أو لا تتوافر عليه. وقمنا بهذا لكي نزيل 
من البرنامج» إغراء تخصيص ات جميع Rp ears oie ee‏ 
استراتيجية ستسفر - على نحو عرضي - عن معدل elhs‏ غير محترم يقدر ب 13 /). 

وفي برنامج المنمذج نقوم بتمرير ملف البيانات عبر عقدة النوع» حيث نختار 
المتغير الهدف ونقوم بتنظيف مستويات قياس متغيرات أخرى. وفي الخطوة AJLI‏ 
نقسم البيانات إلى 150 من مجموعة تدريب و50/ من مجموعة اختبارء OY‏ 
الصلاحية المتبادلة ضرورية حتماً لاستخدام مصنف »-أقرب الجيران. وأخيراء 
نقوم بوضع عقدة !-أقرب الجيران في هذا التيار (الشكل رقم 1.9). 


P EE DH LS هو‎ Ly dt رو تن افر ت لجان علد كير‎ oy 
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ME 
«2% 


يمنحه - إلى حدّ ما - قدراً كبيراً من المرونة. وبعد نقر العقدة نقراً مزدوجاء تفتح 
نافدة» تسمح لك باختيار» في جدولة الأهداف (Objectives Tab)‏ ما إذا كنت تريد 


استخدام -أقرب الجيران فقط للعثور على أقرب الجيران لكل حالة على حدة» أم 
كنت تريد استخدامه باعتباره مصنفاً حقيقياً. وبما أننا نريد الاستخدام الأخير» ننتقي 
«تنباً مجال هدف Le‏ وبعد ذلك» يطلب البرنامج ما إذا كنا حرصين على إنجاز 


المشروع سريعاً وبدقة متناهية» أو الجمع بين الاثنين» أو ما إن كنا نريد تخصيص 
النموذج. إن الخيارات الثلاثة الأولى تسمح للمستخدم بثلاث طرق مختلفة بالنسبة 


ا نموذج اختيار الإعدادات الاق Keyl‏ ونحن نشجع المستخدمين بقوة لتقو = 
ببساطة - «تحليل مخصص)؛ «(Custom Analysis)‏ والانتقال إلى الإعدادات نفسها. 


e KNN procedure will identify the most similiar training cases (the nearest neighbors) to your cases 
| of interest. A target field can be predicted based on the neighboring values. 
at type of analysis do you want to perform? 
© Predict a target field 
© Only identify the nearest neighbors 
What is your objective? 
© Balance speed and accuracy 
Automatically selects the best number of neighbors within a small range. 
© Speed 
Finds a fixed number of neighbors 
© Accuracy 
Automatically selects the best number of neighbors within a larger range and uses 
predictor importance when calculating distances 


© Custom analysis 


Choose this option to fine tune the algorithm on the Settings tab 
LIARS ee 9 E Seas 





الشكل رقم 11.9 مصنف o i-k‏ الجيران 


| 


بعد ذلك» قمنا باختيار نموذجاً فى جدولة المجالات (Fields Tab)‏ (الشكل 
رقم 2.9( وهنا نتوفع تغطية التاهية الصحي باستخدام منطقة التعداد. والعمر» 
pls‏ 69 والنوع. والمواطنة. والتحصيل العلمي. والحالة الاجتماعية. ودخل 


الأسرة. والحالة الوظيفية» باعتبارها متنبتات. 


وفي جدولة الإعدادات (الشكل رقم 3.9( هناك عدد من الأقسام الفرعية التي 
تتيح إعداداً مَعْلمياً. وفي إطار النموذجء تختار ما إذا كنت تريد استخدام البيانات 
المقسمة للتحقق من صحة النتائج» ووضع متغير تقسيم خاص بك» كما يمكنك baf‏ 
اختيار ما إذا كنت ترغب في بناء نماذج منفصلة بالنسبة إلى مجموعات مختلفة من 
الحالات. وهذا يعني أن بإمكانك إدارة التصنيفات منفصلة للرجال والنساء على 
سبيل المثال» أو تقسيم البيانات إلى مجموعات فرعية عشوائية وتشغيل روتينات 
linet‏ اك ا لك و اعد تيا رهد لقان WI‏ خر Rte dejar‏ کر 
مقدار الوقت الذي تستغرقه من أجل تشغيل العملية. وقد تريد ببساطة» تشغيل 
روتينات منفصلة بطريقة يدوية على مجموعة بيانات منفصلة. ما دام بإمكان منمذج 


ما حيازة أي عدد من مجموعات بيانات «مفتوحة» فى آن واحد. 


بعد ذلك» وتحت خانة الجيران» نقوم بوضع قيم ل .K‏ وإن الطريق الأسرع» هو 
تزويد البرنامج ب ۸ ثابت» ولكن بالإمكان اختيار مجال cle‏ وسيقوم البرنامج باختيار 
قيمة» تقلص من معدل التحقق من الخطأ. ويتضمن هذا عملية تشغيل تحاليل متعددة 
!-أقرب الجيران. مما يزيد من وقت التشغيل بشكل كبير. ومع ذاك من الأهمية 
الحصول على k‏ صحيحة» كما أن انتقاء قيمة» إما عالية أو منخفضة للغاية» سينقص 
من الدقة التنبؤية للبرنامج. ونقوم بوضع الحد الأدنى إلى 3» Jody‏ الأعلى إلى 25 
لتمكين البرنامج من مقدار من المرونة في اختيار القيمة الأفضل AS‏ 
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الشكل رقم 2.9: مدخل مصنف -آقرب الجيران في منمذج الحزمة 
الإحصائية للعلوم الاجتماعية. 


وفي هذه الجدولةء نقوم أيضاً باختيار المسافة القياسية التي سنستخدمهاء وما إن 
تم ترجيح السمات أم لم يتم. كما يمكن للبرنامج حساب المسافة الإقليدية أو مسافة 
مجمع المدينة («مانهاتن»»)» ونحن نفضل المسافة الإقليدية. كما نختار ترجيح 
المشكات من خلال clean!‏ معرعين يذلك: اعمادا أكقر» على POM Sled‏ 
أهمية في تنبؤ عضوية المجموعة - عموماً - في حساب المسافات لجيران محتملين. 

ثم تختار - تحت انتقاء سمة - ما إن كنت تريد البرنامج لانتقاء السمات للبت 
فى ol pete‏ الج Swell‏ الستخدمة. .و إذا كان لديك se‏ متو سط من السماتك 
- 15 أو لاک اسشا — فإن استخدام طريقة ما لإزالة السمات الزائدة أو غير المفيدة» 
هي فكرة جيدة» على ما يبدو. ولا نواجه هذه الحالة» ونفضل عدم elal‏ انتقاء سمة. 


3 


تضم إعدادات الصلاحية المتبادلة معلمات» يمكن تغييرها فقط في حالة عدم 
أداء انتقاء سمة. فهي تسمح للباحث بأداء الصلاحية المتبادلة لطية ek‏ وضبط نواة 
لتخصيص OYE‏ بطريقة عشوائية للطيات» وذلك حتى يكون من الممكن تكرار 
التحليل. ونحن بصدد استخدام الصلاحية المتبادلة الكابحة» OY‏ ذلك أمراً غير 
إذا سبق لك أن أدخلت متغيراء لصلاحية ما). وأخيراء نقوم بتشغيل النموذج بنقر 
التشغيل (Run)‏ 





الشكل رقم 3.9: تحديد المعلم بالنسبة إلى مصنف o p-k‏ الجيران في منمذج 
الحزمة الإحصائية للعلوم الاجتماعية. 


يظهر لنا كتلة النموذج (Model Nugget)‏ التى أنتجها المنمذِج كيف أن معدل 
الخطأ تنوع مع K‏ (الشكل رقم 4.9( وبدأت مرتفعة نسبياًء أي حوالي 30.0/ » عندما 
كانت DK‏ أو 2» وانخفضت - بسرعة فى البداية» وبعد ذلك انخفضت على نحو أكثر 
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بطئاً - حتى بلغت k‏ 20 (حوالي 27.5/). وبعد هذه المرحلةء بدأ معدل الخطأ في 
الارتفاع مجدداً. وثمة نقطتان هامتان نشير إليهما في هذا المثال. 


SA‏ يظهر معدل الخطأ علاقة خط منحني مع . ويعد ارتفاع معدل الخطأ 
بشكل مطرد نسبياً بعد Lage ck=13‏ لأنه يمكننا بمعرفة عدم قيامنا ربما بمجرد تعريف 

ثانياً: ينبغي الإشارة إلى أن معدل الخطأ يتنوع إلى de‏ ماء ولكن ليس على نحو 
كبير. وربما يكون الأمر على هذا النحو بالنسبة إلى معظم البيانات» مما يشير إلى أن 
الأخطاء في اختيار ۸ ليست بالضرورة ذات عواقب وخيمة عملياً. وهنا يظهر أن نطاق 
معدل Bll, Shea ae al‏ ومن ناحية أخرى. هذا يظهر فعلاء أنه من 
اال اعبار ره واسعة من القت السك لا Le ILE‏ ردا ادا 
بعمل أفضل من حيث التنبؤ. 

وبإضافة عقدة تحليل ما إلى التيار» يمكننا فحص مدى فاعلية النموذج. ويؤدي 
مصنف »-آقرب الجيران بشكل باهر» من خلال تصنيف - وبشكل صحيح -74./ 
من بيانات التدريب و75/ من بيانات الاختبار. كما نلاحظ أيضا قدرته التنبؤية اللائقة 
بالنسبة إلى كل من الإيجابيات الصادقة (الذين يتوافرون على تأمين)ء والسلبيات 
الصادقة. وفي بيانات التدريب» تبلغ نسبة نموذج الحساسية 71.5/» والخصوصية 
2. وأما الأعداد المقارنة بالنسبة إلى بيانات الاختبار» فهي 70.6./» و 78.1/. 

ويقوم المنمذج بحساب «درجات الميل» بالنسبة إلى تصنيفاته التي تشير إلى 
مدى يقين البرنامج من تنبؤه. كما نرى في تقرير عن قيم الثقة (الشكل رقم 5.9) أن 
المنمذج صحيح بنسبة 100/ من الحالات» في حين إن لديه نسبة يقين من تنبؤه. 
تصل إلى 90.9/ في JS‏ من بيانات التدريب وبيانات الاختبار. 

كيف السبيل إلى مقارنة !-أقرب الجيران بنماذج تنبؤية أخرى في بياناتنا؟ 
يقارن الجدول رقم 1.9 أربع طرق أخرى: 

© الانحدار اللوجيستي. 


© أشجار التقسيم. 
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e‏ شعاع الدعم ا 
© شبكة محايدة. 


وتبدو الإجابة: جيدة إلى حذ ما. وتقوم النماذج الأخرى بعمل جيد في إيجابيات 
Bole‏ تنبؤية» في حين تعمل -أقرب الجيران عملاً أفضل في السلبيات الصادقة 
التنيؤية: 


0.31 


0.30 





Error rate 
6 
N 
© 


0.28 


0.27 


3 45 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 
Number of Nearest Neighbors (k) 


الشكل رقم 14.9 رسم بياني لمعدل الخطأ بقيمة k‏ في تصنيف o f-k‏ الجيران 
chow)‏ الحزمة الإحصائية للعلوم الاجتماعية). 


لقد بدأنا مناقشتنا لأدوات التصنيف - وهو حقل ضخم في ميدان التنقيب في 
جداً في بيانات مسح المجتمع الأميركي في التنبؤ بتغطية التأمين الصحي» على الرغم 
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من أنه ليس متفوقا على المصنفات الأخرى بشكل واضح. وسنواصل في القسم 
الموالي» تحليل خوارزميات تصنيف أخرى. 


E Results for output field hasinsurance 


5- Comparing SKNN-hasinsurance with hasinsurance 
i ing 2_Testing 
3 175 73.75% 2,273 74. 
| 774 26.25% 778 25. 

2,949 3.051 


4 077 
410 





a Pertonmmance Evaluation 





الشكل رقم 5.9: مخرج من مصنف o i-k‏ الجيران 
في clove‏ الحزمة الإحصائية للعلوم الاجتماعية. 
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الجدول رقم 1.9: مقارنة 1-أقرب الجيران بمصنفات أخرى. 


الدقة الدقة حساسية خصوصية 

(تدريب) (اختبار) (اختبار) (اختبار) 
o l-k‏ الجيران 1.73.8 174.5 170.6 178.1 
الانحدار اللوجيستي 72.19/ 1.73.1 1.73.6 72.3./ 
آلة متجهة الدعم 1.79.25 72.93./ 1.73.6 1.74.4 
SOERA‏ 1.12.74 1.12.89 72.60./ 1.73.2 
شجرة تقسيم 115.82 173.45 75.61 771.1 


يعد مصنف pl‏ الساذج lanes (Naive Bayes Classifier)‏ و cr‏ و سيط 
للغاية - على ما يبدو - أثبت نجاحا ملحوظا في تطبيقات» مثل عملية مصفاة البريد 
المزعج» وتصنيف الوثيقة. وظل يستخدم ا ف و غيل قروب چا 
- في معظم تطبيقات استرجاع المعلومات )1998 (Lewis‏ وهو يعمل على 
الافتراضات غير الواقعية التي تفيد (I) Ob‏ مساهمة جميع متغيرات المتنبئ في عموم 
التنبؤ أو التصنيف هي مهمة على نحو متساوء وأن (ب) تأثيرات المتنبئات مستقلة عن 
بعضها بعضاً. وتسمح هذه الافتراضات غير الواقعية» التي تمنح المتنبئ بايز اسمه. 
بأن يكون be yas‏ حسابيأء وأن يتطلب بيانات تدريب قليلة جداء لتطوير تقديرات مَعّْلم 
ما؛ فهو LIE‏ ما يقوم بأداء ee‏ مقارنة بالخوار زميات الأكثر تعقيداًء والكثيفة حسابيا 
على الرغم من الافتراضات غير الواقعية التي يستند إليها (Rish, 2001, Zhang‏ 
(2004. 


وفي أي مشكلة تصنيفء ثمة فثة in‏ نحاول التنبؤبهاء ومجموعة من متغيرات 
المُدخل التي نستخدمها لبناء هذا التنبؤ. إننا بصدد القيام بتقدير احتمالية الفئة التي 
منحت متغيرات المُدخل. ومن ثم فإن نظرية بايزء تعيد كتابة مسألة التصنيف على 
النحو التالي: 


P(Y = ylX = x) = p(Y = y)p (X = لاامد‎ = y)/p(X=x) 
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وهذا يعنى أن احتمالية النتيجة الممنوحة للمدخل gl)‏ المدخلات)» هى ثمرة 
احتمالية النتيجة واحتمالية المدخل (أو المدخلات) الذي منح النتيجة» مقسوم على 
احتمالية المدخلات. وإذا كانت هناك متغيرات متعددة في متجهة X‏ فسنقوم ببساطة. 
بمضاعفة الاحتماليات المشروطة. ويمكننا فعل ذلك بالنسبة إلى كل فئة من فئات ۲ 
ومن ثم تخصيص لكل حالة لذلك الصنف من أصناف Y‏ الذي تعد احتماليته المقدرة 
(أو «احتماليته الخلفية») الأكثر ارتفاعاً. كما يستخدم مصنف بايز بيانات التدريب 
لتقدير قيم SLI‏ على الجانب الأيمن من المعادلة المذكورة أعلاه» ثم تطبيق 
هذه التقديرات لاختبار البيانات من أجل تصنيفها (1998 (Lewis,‏ 

pl ol‏ الساذج يختلف عن الانحدار من ناحيتين مهمتين: 

أولهما: أنه لا يعالح أي واحد من هذه المتنبئات باعتبارها أكثر أهمية من أي 
متنبئ آخرء والأمر الذي تقوم به - في الأساس - المعاملات في نموذج انحدار 
لوجيستي» من خلال التصرف كتر جيحات» يتم بواسطة JS‏ قيمة متغيرة ما. 

انيهما: بينما تقدر نماذج الانحدار GUT‏ جزئية من المتغيرات - المتوسط 
المستقل للتأثير الهامشي لكل متغير عندما تبقى قيم المتغيرات الأخرى ثابتة - يسمح 
بايز الساذج للاحتمالات المشروطة للمتنبئ باستقلاليتها بعضها عن البعض على 

مئال في «الرابدمايئر» أو المنقب السريع 

لقد كتبت الروتينات من أجل أداء تصنيف بايز الساذج بالنسبة إلى PIR‏ 
تحكم بايز الساذج في حزمة أكبر ل 10716) وماتلاب (MATLAB)‏ وهناك تطبيق 
آخر له في الخادم (Server)‏ إحصائيات نموذج الحزمة الإحصائية ee lace We LU‏ 
ومختصرات (Macros)‏ بما أن استعمالها 5$ JY‏ نظام التحليل الإحصائي 
(SAS)‏ والبيثون (Python)‏ 
سريع لحزمة برمجيات (ibe‏ (بحيث يجري تحميله بسهولة انطلاقاً من الموقع 
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.((http / /:rapidminer.com)‏ ومثله في ذلك مثل منمذج إحصائيات الحزمة 
الإحصائية للعلوم الاجتماعية الذي نوقش أعلاه» يعمل المنقب السريع عبر الصياغة 
السهلة الاستعمالء للتيارات والعقد. ومع ذلك» ينبغى على القارئ ملاحظة أن 
خوارزمية بايز الساذج» غير مشمولة في نسخة المنقب السريع» القابل للتحميل بشكل 
منفصل عن طريق سوق امتدادات المنقب السريع. وعليه ابحث عن سوق الامتدادات 


نستخدم البيانات من مسح المجتمع الأميركي للتنبؤ بوضع التأمين الصحي. 
وتيك Lil pte GUL dylan‏ وما عاج BM oye IS feeds‏ اوا و 
المؤمّنينء 7.50 من الحالات. وكما ناقشنا ذلك سابقأء إن القيام بعملية موازنة البيانات 
على مستوى الحصيلة يعد فى الغالب فكرة جيدة عند أداء اختبار مصنف ما. وإن 
القيام بهذاء يزيل من المصنف إغراء سلك السبيل السهل من أجل تقليل معدل الخطأ 
من خلال تضنيف كل الحالات abl‏ على أنها ars‏ إلى الصنف المهيمن. 


وينبغو اتخاذ العديد من | لخطوات الأولية كي يشتغل مصنف بايز الساذج بطريقة 
أكثر سلاسة في المنقب السريع: 


أولاً: يعمل الحافر السريع في تجربتناء بشكل أفضلء وأسرع بكثير» إذا كانت 
المتنبئات المستمرة المتفردة باستمرار» سابقة لأوانهاء على الرغم من أن بايز الساذج 
يستطيع - نظريا - أن يتعامل مع متنبئات مستمرة (حساب الاحتمال المشروط من 

ثانياً: يقوم المنقب السريع بقراءة المتغيرات جميعها بشكل افتراضي بقيم رقمية 
باعتبارها متغيرات مستمرة. وبتعبير ol‏ ينبغى تسجيل المتغيرات الفئوية. 
والمتغيرات الوهمية من حالة أرقام إلى متغيرات سلسلة (ذات قيم سلسلة) حتى 
رابدمايئر من قراءة هذه المتغيرات بصورة صحيحة. 

وبعد تمييز المتغيرات المستمرة» وإنتاج قيم سلسلة» نخصص 70 // من بياناتنا 
لتدريب النموذج و30/ لاختباره. وبعد ذلك نقوم بتشغيل نموذج بايز الساذج. وفي 
المنقب السريع» يظهر هذا على الشاشة كما هو مبين في الشكلين رقم 6.9 و رقم 7.9. 
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وتشير مصفوفة الارتباك (الجدول رقم 2.9) إلى أن لدى النموذج دقة شاملة 
تصل إلى 72.42./ في بيانات الاختبار» مما يدل على أنه قادر على المنافسة مع 
المصنفات الأخرى. مثل -k‏ أقرب الجيران التى سبق لنا فحصها. 


كما يمنحنا المنقب السريع أيضاً تقديرات توزيعات احتمالية» في جدول توزيع 
نموذج (الجدول رقم 3.9). وتعد هذه التقديرات - كما سيذكر ذلك القارئ - 
اعمال الا Cine A petal‏ معي وی Kall‏ ليا نان ی ت 
يصل إلى 100( وينبغى قراءتها على النحو التالى؛ فاحتمال أن تكون حالة ما بيضاء 
على امعان capa‏ هو 732 ل Big)‏ برقا دناعت رطانق ا 
3 ومن ثمء يشكل البيض الأغلبية لدى الأشخاص المؤمّنين وغير المؤمّنين» 
غير أن تمثيليتهم مفرطة بين الأشخاص المؤمّنين. وعلى النقيض من ذلك» إن احتمال 
حصول السود على تأمين» هو 0.099 في حين إن احتمال عدم منح السود أي تأمين. 
ge‏ 60.125 مما يشير إلى أن تمثيلية الأميركيين الأفارقة مفرطة بين أولئك الذين 
يفتقرون إلى تأمين صحي. 

وإذا ما اخترناء فيمكننا التقدير انطلاقاً من جدول التوزيع» احتمالية أن يكون 
لدى فرد ما مزيجاً معيناً من الخصائصء إما ضمن BE‏ المؤمّنين أو BE‏ غير 
المؤمنين. خذ» على سبيل الالء ضا (Vo gual‏ أعزب». er‏ على درجة 
الباكالوريوس» ويعيش بالمنطقة الوسطى للولايات المتحدة» وغير إسباني» ومن غير 
المولودين بالخارج» ويملك منزلاء وليس مخضرماء وله عمل» وعمره 27 chle‏ 
btw ys Sy gs 70000: es pt TE hss‏ اشام اعمال pial‏ 
احتمالات هذه الخصائص التي تم الإعلان عنها في الجدول أعلاه مرتين: مرة يمنح 
فيها التأمين» ومرة لا يمنح. وفي كلتا الحالتين» تضرب فيها الاحتمالات Lal‏ في 
الاحتمالات المسبقة للنتيجة (0.50 بالنسبة إلى كل من مسألة وجود التأمين الصحى 
وعدمه» مع الأخذ بعين الاعتبار توازن البيانات): ۰ 


أرجحية احتمال تأمين الفرد = 0.888x0.396x0. 144x0.388x0.099x0.50‏ 
0.172x0.111x0.490x0.9110.477x0.761x0.962x‏ = 0.00000298 


أرجحية احتمال تأمين الفرد = 0.709x0.400x0.076x0.492x0.125x0.50‏ 
0.169x0.295x0.682x0.970x0.532x0.553x0.805x‏ = 0.000005175 
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وانطلاقاً من هذا الحساب» يمكن تخمين إمكانية أن يكون هذا النوع من الفرد. 
غير مؤمن أكثر ممأ يكون Lege‏ ولاسفجلاء هذه المعلومة أكثر» يمكن تحويل هده 
الأرجهيات إلى اخالات: 

احتمالية تأمين الفرد - 0.00000298/ (0.000005175+0.00000298)- 
0.3583 35.83/ 


احتمالية عدم تأمين الفرد - 0.000005175/ )0.00000298 + 0.000005175( 
= 0.6416 = 64.16./ 


Main Process 





الشكل رقم 9 بناء تيار بايز ساذج في المنقب السريع (الإطار الأول). 


Main Process 





الشكل رقم 9 بناء تيار jul‏ ساذج في المنقب السريع (الإطار الثاني). 
الحدول رقم 9 : مصفوفة الارتباك من مصنف بايرز الساذج. 


مؤمن حقيقي غير مؤمن حقيقي دقة 
مۇمن Lice‏ 83,239 33,278 11114 
ER‏ 28,256 78,326 7.13.49 
مجموع معدل الدقة 12.42./ 


Pe 


الحدول رقم 3.9: جدول توزيع النموذج من مصنف بايز السادج. 


(X) معلم‎ 


wae! 


متزوج» الزوج حاضر 


متزوجء الزوج حاضر 


منفصل 
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Pr (X)‏ مؤمن 


0.732 
0.099 
0.048 
0.007 
0.112 
0.001 


0.388 


0.449 


0.012 


0.013 


0.080 


0.058 


0.331 


0.209 


Pr (X)|‏ غير مؤمن 


0.513 
0.125 
0.052 
0.016 
0.291 
0.002 


0.492 


0.310 


0.029 


0.030 


0.120 


0.019 


0.344 


0.36 


التعليم 


الجنوسة 
حالة التخضرم 
حالة التخضرم 
الحالة الوظيفية 
الحالة الوظيفية 


al 
Pea 


درجة الزميلة 


الجبال 


مستوى الباكالوريوس 
المحيط الهادي 
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0.171 
0.059 
0.144 
0.088 
0.154 
0.070 
0.396 
0.187 
0.192 
0.888 
0.112 
0.962 
0.038 
0.761 
0.239 
0.523 
0.477 
0.911 
0.089 
0.510 
0.490 
0.132 
0.113 


0.203 
0.050 
0.076 
0.022 
0.186 
0.082 
0.400 
0.120 
0.213 
0.709 
0.291 
0.805 
0.195 
0.553 
0.447 
0.468 
0.532 
0.970 
0.030 
0.318 
0.682 
0.058 
0.070 


العمر 30-18 0.111 0.295 
العمر 37-0 0.047 0.134 
العمر 44-37 0.085 0.124 
العمر 50-44 0.085 0.109 
pl‏ 56-50 0.093 0.100 
العمر 64-6 0.114 0.093 
العمر 64+ 0.193 0.016 
الدخل gw VI‏ دون $34,300 0.240 0.426 
الدخل الأسري $34,300 -50,000 0.135 0.190 
الدخل الأسري $50,000-70,900 0.172 0.169 
الدخل الأسري $70,900-106,000 0.205 0.127 
الدخل الأسري أزيد من $106,000 0.247 0.087 


وبعبارة أخرىء من الأرجح تقريباء أن يكون هذا النوع من الفرد غير مؤمّن 
بمقدار مرتين أكثر من نسبة كونه مؤمّناء وأن بايز الساذج سيخصصهما لصنف غير 
ال 

وقل رأينا إمكانية أن يكون بايز الساذج مصنفاً كفء. ودقيقاء cee‏ ويقارن 
بشكل جيد مع الخوارزميات الاكثر تعقيداء كما أنه يفهم بسهولة أكثر من مصنفات 
عديدة أخرى. القن تعد أكدر باعتبارها «صناديق سوداء». وننتقل الآن من إحدى 
أبسط خوارزميات التصنيف إلى الأكثر تعقيداً: آلة متجهة الدعم. 

آلة متجهة الدعم 

تعد اللات متجهة الدعم (SVMS)‏ نوع آخر من المصنف. وتم تطوير خوارزمية 
آلة متجهة الدعم في أوائل التسعينيات من قبل الباحثين في مختبرات بيل (Bell‏ 
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(Boser, Guyon, and «(Vladimir Vapnik) فلاديمير فابنيك‎ «Laboratories) 
وتقديمها في شكل عصري في عام 1995 من قبل فابنك وزميله‎ Vapnik 1992) 
وقد جرى‎ .(Cortes, and Vapnik, 1995) (Corrina Cortes) كورينا كورتس‎ 
تطويره في البداية باعتباره مصنفاً ثنائيء ومنذ ذلك الحين» تم توسيع إطار آلة متجهة‎ 
الدعم لتصنيف متعدد الفئات» والانحدارء والتجميع» واكتشاف الشاذ من الحالات.‎ 
بل وانتقاء سمة نفسه. ومع ذلك» يبقى استعمال التصنيف الثنائي الأكثر شيوعاً. ونركز‎ 
على هذا التطبيق فيما يلي. أصبحت آلة متجهة الدعم الأجر المعياري في مجالات‎ 
من قبيل الصورة» وتصنيف النص» وتعرف الحروف» وأثبت أهميته القصوى في‎ 
العلوم الطبية الحيوية لتصنيف البروتين والكشف عن السرطان. ومع ذلك. لم يظهروا‎ 
وبشكل محدود - إلا مؤخرا في العلوم الاجتماعية» في حقول مثل الشؤون المالية‎ - 
«(Kostaki et al. 2011) والديموغرافيا‎ «(Gavrishchaka, and Banerjee 2006) 

(Cui, and Curry 2005) والتسوق‎ 


ولفهم ما تقوم به آلة متجهة الدعم. يجب Vl‏ اعتبار مجموعة من النقاط في 
حيز» المنقسمة إلى فئتين؛ UE‏ متجهة الدعم - مثلها مثل مصنفات أخرى - تبحث 
عن le‏ يقسّم هذه النقاط إلى مجموعات بأقل قدر ممكن من الخطأ. وإذا وجدت 
نقاطنا في حيز ثنائي OLN‏ فسيكون هذا الفاصل خطاً ماء ويكون مسطحاً في حيز 
ثلاثي الأبعاد. وفي أبعاد أكبر من هذه» سيكون الفاصل مسطحاً بشكل مفرط للغاية. 
وبما أن أجهزة الدعم الآلي تبحث دوماً عن مصنف في حيز متعدد الأبعاد» فهي عادة 
ما تسعى إلى وصف السطح المفرط في الانبساط (أو سطح القرار) التي ستميز بشكل 
أفضل» بين مجموعتينا. فكر في حيز متعدد الأبعاد مليء بالنقاط الحمراء والزرقاء 
Ol SY tue‏ بست وا تعاماء و ا ومعوى عاطق VL el 5 LLG ald‏ سا 
ومناطق أخرى ذات LW‏ و«حدوه» بالأساس» حيث يفسح لون واحد المجال إلى 
آخر. إن سطح القرار هو سطح ذو بعد (n-dimensional) n-‏ قادر على فصل - 
بقدر الإمكان - مناطق النقاط الزرقاء عن مناطق النقاط الحمراء. والسؤال المطروح 
هو أين ينبغي وضع سطح القرار؟ 
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إن أجهزة الدعم الآلي لا تستخدم نقاط البيانات المتاحة جميعها لمعرفة كيفية 
فصل البيانات» بخلاف تقنيات الانحدار أو العديد من تقنيات التعليم الآلي الأخرى 
مثل مصنفات بايز أو الشبكات العصبية؛ فهى بدلا عن ذلك» تستعمل فقط النقاط 
الأكثر إزعاجاً - bud‏ الأقرب إلى «الحدودا» والسطح المفرط في الانبساط 
الفاصل - للبت في كيفية تشكيل التمييز. وبطبيعة الحال» يتم وصف نقاط البيانات. 
کل على حدة» بواسطة مجموعة من الإحداثيات» وهي من ثم» متجهات (Vectors)‏ 
رتخد جات کل : فئة على حدة» الأقرب في الحيز إلى متجهات الفئة الأخرى. 
والمستخدمة من قبل آلة متجهة الدعم لإيجاد سطح القرار» تدعى متجهات الدعم 
.(Support Vectors)‏ 


ويمكن الآن تقفي أثر عدد لا يحصى من أسطح القرارات أو النسج بين هاتين 
الحالتين الحاسمتين» ومن ثم» ضرورة اختيار الأفضل منها - أي اختيار أمثلها؛ فأي 
مبدأ مثالى ينبغى استخدامه. يا ترى؟ يمكننا وصف المسافة بين نقطة وسطر رياضيا. 
TA ET‏ الدعم الآلي» نختار سطح القرار ذو المسافة الكبرى بينها وبين 
متجهات الدعم. تصور مجموعة سطح بين هذه النقاط الحمراء والزرقاء الأقرب إلى 
الحدء والتي تعظم مسافتها انطلاقا من تلك المجموعتين من النقاط. وتسمى هذه 
الفجوة أو المسافة بين متجهات الدعم وسطح القرار» الهامش. وتبحث أجهزة الدعم 
الآلي عن سطح القرار الذي يعظم الهامش 

إلى حدود OV‏ لا تختلف أجهزة الدعم الآلي كل الاختلاف عن BL‏ الطرق 
الأخرى المألوفة. وتقوم أجهزة الدعم الآلي بتعقب سطح ما عبر حيز متعدد الأبعاد. 
الذي يصف بفاعلية» العلاقة بين الخصائص وعضوية المجموعة» وهذا Y‏ يختلف 
- في واقع الأمر - كل الاختلاف عن الانحدار اللوجيستي» من حيث المبدأء ولكن 
تختلف أجهزة الدعم الآلي اختلافا جوهريا فقط فيما يتعلق باستخدامها لمجموعات 
فرعية هامة من الحالات» عوض كلها (ما يجعل أجهزة الدعم JY‏ أكثر فاعلية). 
ولآن أجهزة الدعم SY‏ تعظم المسافة - عوض تقليصها - بين النقاط الرئيسة. 
bey‏ السطح المفرط في الانبساط الذي تتعقبه. 


ولكن افترضنا حتى الآن» أن المعلومات التى بحوزتنا حول حالاتنا أو نقاطنا - 


234 


في الانبساط عبر النقاط» التي تفصلها إلى مجموعتين متميزتين؛ أي أننا افترضنا أن 
مجموعاتنا قابلة للفصل خطيا. 

ولكن لا يكون الأمر على النحو في كثير من أحيان. قد تكون لدينا - على سبيل 
lta‏ الات OSS‏ ي فا وة راو (Lot og)‏ ما امن قلف ALAN‏ 
الموجودة في فئة مختلفة. وإن صح ذلك فلن يوجد خط أي فاصل خطيء يمكن 
تصوره» والذي قد يسمح بفصل الحالات إلى مجموعاته الخاصة. وما دمنا مقتصرين 
على الحيز البعدي n=‏ المحددة بمدخلاتنا (حيز المدخلء في لغة آلة متجهة الدعم). 
فإن أي مصنف سيعجز عن تصنيف نسبة كبيرة من الحالات بشكل صحيح. 

هنا تظهر جذة أجهزة الدعم الآلي» إذ يفسر صعوبة هذا التصنيف بالبعدية 
المقيدة. وإذا أمكن لنا إسقاط بياناتنا داخل فضاء Gd‏ بعد عالى» فسيكون بإمكاننا 
د jou‏ دي JA del‏ زاود على اننا 
ل LS ed joe et thai SV tee (ale‏ أذ رس حر Seal‏ 
حيز السمة هو مجرد مسألة تطبيق وظيفة رياضية على البيانات لتحويلها بشكل 
مناسب إلى حيز ذي بعد عالي. 


وتكمن الصعوبة في كون أن خصائص حيز هذه السمة» غير معروفة لديناء ولهذا 
فمن غير الممكن ع معرفة الوظيفة الرياضية الحقيقية التي نحتاجها. ولكن 
الظاهر أن هذا لا يهم في واقع الأمر. وكل ما علينا القيام به هو تعريف دالة النواة 
(Kernel Function)‏ التي Le law‏ (التي يشير إليها مطورو أجهزة الدعم الالي 
بتعبير خدعة (Kernel Trick) al Jl‏ وثمة العديد من وظائف النواة» وعموما ستوفر 
برامج آلات متجهة الدعم المستخدم بعدد قليل من الخيارات» حول النواة الممكن 
استخدامها. Oly‏ أفضل نواة مؤهلة لهذه المهمة» ليست شيئا يمكن معر فته عادة فى 
وقت سابق لأوانه) اللهم إلا إذاكنت تجيد رسم البيانات داخل أبعاد عليا في ذهنك): 
ولهذا يمكن أن يتم الاختيار فقط عبر التجربة والخطأ. 


هنالك صعوبة واحدة بخصوص هذه الخدعةء وهو أنه من المحتمل أن تفوق 
تناسبيتها البيانات. وبتعبير آخرء قد cop‏ إسقاط البيانات إلى حيز ذي بعد عالي إلى 


238 


انفصال خطي كثير للبيانات الخاصة التي بين أيديناء ولكنها حققت الانفصال عن 
طريق رفع كوكبة من متجهات دعم» وقد تكون هذه الكوكبة خاصة بتلك البيانات 
المميزة. وبالتالي فقد أضحى من الضروري أداء الصلاحية المتبادلة عندما يتم 
توظيف أجهزة الدعم الآلي سواء عن طريق الإبقاء على جزء من البيانات لاختبار 
نموذج آلة متجهة الدعم» أو عن طريق الصلاحية المتبادلة لطية -k‏ وسيطلعك هذا 
عما إذا كان نموذج آلة متجهة الدعم يعمل عند تطبيقه على بيانات أخرى - أي ما إن 


Lea al كأ هه‎ 


| © Statistics File 


U:\Data Mining\data\ObamaR. sav 


Data ee oa) Cael clin م‎ 


Import file: |U:\Data Mining\data\ObamaR sav 


Variable names: @ Read names and labels © Read labels as names 
Values: © Read data and labels © Read labels as data 


©) Use field format information to determine storage 


آلات دعم المتجه في منمذِج الحزمة الإحصائية للعلوم الاجتماعية 





الشكل رقم 8.9: تحميل البيانات لأجل تحليل آلي 
لمتجهة دعم في منمذٍج الحزمة الإحصائية للعلوم الاجتماعية. 


3 


oe 


Statistics File 


OY‏ أجهزة الدعم الآلي لم تكن موجودة طوال هذا الوقت» ولأن استعمالها لا 
يزال مقتصراً على مهام متخصصة» لم يتم دمجها في معظم الحزمات الإحصائية 
التجارية. إن برامج آلات متجهة الدعم متوافرة في *1 و«الماتلاب» وكذا في عدد من 
أجنحة التنقيب في البيانات. وإن الحزمة الإحصائية للعلوم الإنسانية قد تم ضمها 
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أيضاً إلى برنامج منمذجها من برامج التنقيب في البيانات» التي سنقدم توضيحاً بشأنها 
ssl‏ 


ولتشغيل UT‏ متجهة الدعم في المنمذجء نحتاج أولا إلى انتقاء بعض البيانات. 
والمنمذج قادر على قراءة عدد من أنواع مختلفة من ملفات البيانات مثل ملفات 
إكسيل أو ملفات النص؛ فبياناتنا موجودة سلفا في ملف (sav.)‏ لحزمة الإحصائية 
للعلوم الاجتماعية (SPSS‏ لذا ننتقي جدول الموارد للوحة العقد وننتقي ملف 
الإحصائيات. وبعد ذلك تفتح العقدة على الشاشة» التي ننقرها مرتين لانتقاء ملف 
البيانات الذي نريده. (لتصفح الملف على حاسوبك» اضغط على الزر الأزرق ذي 
النقاط الثلاث» على يمين علبة نص الملف استيراد الملف (Import File)‏ كما هو 
مین فی الشكل ركو 8.9( 











@ Partition 


coro aeee 






© Train and test © Train, test and validation 
Labet: [Training | Vaue= [1 Trana [| 
— | 
Labet ffesing | vave= foter [ 


Labeij gid ato! Value = 3 Yarcation 





Values: © Use system-defined values (°1", "2" and "3") 
© Append labels to system-defined values 
© Use labels as values 


S Set random seed Seed: | 1234567] 


E Enable SQL to assign records to partitions 






الشكل رقم 9.9: تقسيم البيانات قبل تحليل آلة دعم المتجهة في منمذِج الحزمة 


نختار مجموعة بيانات انتخابات 2012 على مستوى المحافظةء التى قمنا 
بتعديلها لتشمل المتغير الوهمى» المشفر 1 إن عادت 50/ أو أكثر من أصوات 
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المقاطعة إلى أوباما و0 فيما عدا ذلك. وعلى العموم فبياناتنا صيغت مسبقاً في الجزء 
الأكبر منها. وهذا ليس أمراً ضرورياً بما أن المنمذج EKo‏ من إنتاج متغيرات جديدة 
أو تحويل تلك الموجودة. كما يسمح لك أيضاً معاينة حالاتها أو إقصاء مجموعة 
فرعية منهاء ولكن تهيئ البيانات هو - إلى حد ما - أمر أسهل وأكثر بساطة في برنامج 
إحصائي معياري مثل الحزمة الإحصائية للعلوم الاجتماعية (SPSS)‏ أو «الستاتا» 
(Stata)‏ خاصة إذا كنت مطالباً بالقيام بالعديد من التغييرات» ولهذا نقترح إعداد 
بياناتك أولاً قبل تحميلها في المنمذج. ومع AUS‏ ستتحقق من أن كل المتغيرات 
مشفرة بشكل صحيح باعتبارها متغيرات مستمر وفئوية» وهكذا. ويمكن القيام بهذا 
يدوياً أو LI‏ من خلال نقر اقرأ القيم (Read Values)‏ في جدول الأنواع في نافذة 
العقدة لملف الإحصائيات. 


وبعدها نقسم البيانات إلى قسمين. ولا بد من القيام بهذا التقسيم في عقدة 
مستقلة» بدلاً من انتقائه كخيار ضمن نافذة الإجراء كما في الغامب IMP)‏ وفي 
لوحة tial!‏ قم بانتقاء جدول مجال العمليات» وبعدها انقر تقسيم (Partition)‏ 
وهذا يستدعي نافذة التقسيم المعروضة في الشكل رقم 9.9. كما يمكنك المنمذج 
من إنتاج أجزاء التدريب» والاختبار» والصلاحية أو فقط الجزأين الأولين واختيار 
جزء البيانات المراد إدراجها في كل واحد» كما سنقتصر على إدراج جزئي التدريب 
La Slee VI,‏ أن bb‏ تلك Oly 3.114 bi‏ 


ومن fol‏ 3.114 محافظة من محافظاتناء صوتت حوالي 125 لصالحه. فيما 
صوتت 75/ ضده (لكن 25 في المائة من المحافظات التي ربحها أوباماء كانت في 
معظمها محافظات مليئة بالسكان). ويجد العديد من المصنفات صعوبة مع البيانات 
غير المتوازنة من حيث النتيجة التي تميل إلى تقليص معدل الخطر من خلال 
تخصيص IS‏ الحالات أو معظمها للأغلبية. ولمعرفة ما إن كان هذا الأمر مهما 
بالنسبة إلى أجهزة الدعم الآلي» سنقوم بتحليلات تهم البيانات المتوازنة وغير 
المتوازنة. وإن موازنة البيانات بسيطة - نوعاً ما - في المنمذج. يكفي نقر جدولة 


(Balance) واختيار التوازن‎ (Record Ops Tab) سجل العمليات‎ 
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وموم ممه ممم مو ووه 





@- 


ObamaR. sav Partition Balance No Targets! 





> 





الشكل رقم 10.9: بناء تيار تحليل آلة متجهة الدعم في منمذج الحزمة الإحصائية 
للعلوم الاجتماعية. 

ويتم موازنة المنمذج من خلال تقليص فئة معينة من الحالات (عن طريق معاينة 
حالات بشكل عشوائي) أو من خلال زيادة فئة أخرى (عبر مضاعفة الحالات). 
ستحتاج إلى اختيار صيغة تخبر المنمذج عن الحالات التي تريد أن تغير (مثل «فوز 
أوباما = CT‏ ومن ثم قاسما مشتركا يتم من خلاله ضرب الحالات لتحقيق عددك 
المرغوب فيه. ونضرب فوز أوباما = 0 في 0.4 وفوز أوباما = 1 من الحالات في 
ا aryl gal.‏ الات J)‏ سل Cle‏ سال سو الاك واف سا LA‏ وا 
ما إن كنت تريد موازنة البيانات فقط في مجموعة التدريب» أو أيضاً في مجموعتي 
الاختبار والصلاحية. Oly‏ معايئة البيانات في مجموعة bis die pal cady‏ إن 
أردت استعمال مجموعة الاختبار لتوليد نتائج الميول (الذي يمكن للمنمذج توليده 
بسهولة). وبما أننا لا نريد القيام بذلك» فسنوازن على مستوى المجموعتين معا. 
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إننا OYI‏ على استعداد لتشغيل آلة متجهة الدعم» وهذا موجود تحت قائمة 
النمذجة باعتباره آلة متجهة الدعم. وبعد إضافته إلى التيار» ستحتاج إلى بناء نموذج 
خاص بك (انظر الشكل رقم 10.9). واشرع بداية في تحديد المتغير الهدف» وبعدها 
اختيار المتنبئات التي تريد في النموذج» ومتغير التقسيم (المولد تلقائيا إن كنت قد 
أنتتجت عقدة التقسيم). ثم» قم باختيار خاصيات آلة متجهة الدعم الذي تريد تشغيلهاء 
وذلك عبر اختيار جدولة الخبير في نافذة آلة متجهة الدعم. كما يمكنك فتح مفاتيح 
الخيار عبر ضبط الوضعية للخبير ضمن هذه الجدولة (انظر الشكل رقم 11.9). 
وسيمكنك هذا من اختيار نوع النواة ومعلم «غاما» Of)‏ كانت لديك نواة لا (ihs‏ 
ومعلم الضبط CI‏ وضبط الدقة وقاعدة الإيقاف. 


© obamawin 


© Simple © Expert 
| Append all probabilities (valid only for categorical targets) 


Regularization parameter (C): — 


Regression precision (epsilon): ل‎ 





الشكل رقم 11.9: إعداد مَعلمات آلة متجهة الدعم في منمذج الحزمة الإحصائية 
إن قاعدة الإيقاف تخبر المنمذج عندما تريدها أن تبت في كون التقاء نموذجك. 
وقد تم تخفيض الافتراض - إلى de‏ ما - ولكن إذا أردت أن تتيقن من بلغوك الحد 
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ا العام» يمكنك إدخال عدد أقل Lass‏ وإذا أردت التقاء أسرع. فارفع من 
قيمة الإيقاف. ولكن المنمذج يعمل - إلى حدما - بسرعة مع بيانات من هذا الحجم» 
لذا ننصح بملازمة الافتراض. 

إن المنمذج يسمح لك باستعمال أربع نوى مختلفة - دالة القاعدة الشعاعية 
(RBF)‏ والدالة المتعدد الحدود» والدالة السينية» والدالة الخطية. وإن النوى الخطية 
لا تسقط البيانات إلى حيز عالي الأبعاد؛ فإذا تناسب ذلك جيدأء فسيكون لديك فقط 
بيانات لا تحتاج إلى أن ترسم إلى حيز سمة ليتم تصنيفها. أما النوى الأخرى» فلديها 
كلها مواطن قوتهاء ونقترح أن تجرب كل واحدة على حدة» بالإضافة إلى قيم مختلفة 
من معالمات النموذج» قصد الحصول على أفضل فاصل دون إفراط في التناسب. 


PCT_TO14_003: % Not f= 
Hispanic or Latino: White ... 


2010 % Total: Evangelical | 
Protestant | 






Inpopdens} : 


PCT T009_005:%65and) 
لبن‎ 


PCT_T014_004: % Not 
Hispanic or Latino: Black or... 


PCT_1038_003: % Civilian 
Male in Labor Force 16 Yea... 


divorce 2per 


PCT_T014 006: % Not 
Hispanic or Latino: Asian ... 


Samesexper 








| | | | | i 
Least Important Most Important 


الشكل رقم 112.9 أهمية المتنبئ في آلة متجهة الدعم في منمذج الحزمة الإحصائية 
للعلوم الاجتماعية. الهدف: فوز أوباما. 
وبمجرد اختيارك نواة ماء عندئذ يكون الوقت قد حان لضبط مَعلمات النموذج» 
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بالنسبة إلى أي نوع من أنواع النواة الأربع. bly‏ دقة الانحدار» فلا تهم إلا نمذجة 
نتائج مسثمرة cu)‏ المنمذج يؤدي انحدار UI‏ متجهة الدعم)؛ فهي تخبر النموذج 
عن حجم الخطأ المقبول» في حين يعد معلم الضبط ل 0» استتباعياً بالنسبة إلى 
ل تصنيفاً © أكثر Bo‏ ولكن بإمكانها تقليص قدرة النموذج على التعميم لتشمل 
بيانات الاختبار. أما بالنسبة إلى دالة القاعدة الشعاعية» والدالة متعددة الحدود. 
والدالة السينية» فهناك أيضاً مَعْلم «غاما». ومثلها في ذلك مثل ©» تنجم عن القيم 
العليا مزيداً من الدقة على حساب إفراط تناسبي مفترض. وإذا اخترنا النواة المتعددة 
الحدود» فيمكننا ضبط درجة النواة المتعددة الحدود (الفرضية هى 3). Jol,‏ 
يمكن للشخص وضع معلم متحيز» مماثل لمتغير ثابت في الانحدار بالنسبة إلى كل 
من النوق المتعددة الحدود. والتورى السينية. 


أي من هذه الإعدادات يجب وضعها؟ يقدم البرنامج بعص الإرشادات» ولح 
صمن هذه geste las)‏ سيكون من الصعب الإدلاء shy‏ قبل ides)‏ ويمكن 
للباحث فقط أن يجرب مع إعدادات مختلفة ويختار الإعدادات الأمثل. 


قم بتشغيل برنامجك عبر نقر «تشغيل». تظهر «كتلة صلبة» وهي العقدة التي 
تحتوي نتائج النموذج الذي قمت بتشغيله. ولسوء الحظء لا يتوافر جزء كامل من 
حيث المخرج انطلاقاً من آلة متجهة دعم في المنمذج. وإذا انتقيت «احسب أهمية 
(Calculate Predictor Importance) t J‏ في «جدولة حلل» (Analyze Tab)‏ 
داخل نافذة آلة متجهة الدعم. فسيتم عرض المتغيرات المختلفة مساهمات في 
الفاصل ( الشكل رقم 12.9). 

وما نلاحظه هنا هو أن المتغير الأهم في تنبؤ أصوات أوباماء يتمثل في نسبة 
المحافظات من البيض غير الإسبانيين. وبعد هذاء وفي انخفاض للأهمية بشكل 
سريع» نجد نسبة البروتستانت الإنجيليين» المتناسبة مع درجة باكالوزيومن cle‏ أو 
درجة أعلى منهاء والكثافة السكانية» ونسبة 65 أو أكبر. ولا يعد المنمذج موثقاً جيدا 
على نحو خاص. ولسوء الحظء عندما يتعلق الأمر بوصف مدلول إحصائياته المولدة 
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(مثل أهمية المتنبع) على وجه الدقة» أو كيف يتم حسابهاء ولكن المعاني حدسية 
نوها be‏ 





و 
$ 
ياب * obamawin‏ 
$ 
. 


a NC 
oe. 








ObamaR.sav Partition obamawin 


| l &-Results for output field obamawin 
@ Comparing $S-obamawin with obamawin 
| raining 
778 84.11% 


147 15.89% 
925 





الشكل رقم 13.9: مخرج آلة متجهة الدعم في clase‏ الحزمة الإحصائية للعلوم 
الاجتماعية. 
للبحث عن إحصائيات التناسب» اختر المخرج» وانتقي «عقدة حلل» (انظر 
الشكل رقم 139 وضمن هذه العقدة» في «جدولة حلل)» انقر المربع الخاص 
OU pean)‏ المصادفة». وسيمنحك هذاء النسب المئوية مصنفة بشكل صحيح في 
مجبوحات پاقات Cy tell‏ واا خا ركا سبش قات SUSY!‏ بالسية إلى الذي 
يمكنك استخدامها Les‏ لحساب حساسية النموذج» وخصوصيته. 
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لقد قمنا بتشغيل النماذج على بيانات انتخابات 2012 مستخدمين نوى مختلفة 
(مغيرين SLL‏ من أجل أداء أمثل) ومن أجل أن تقوم المقارنة بعملية تشغيل 
النماذج نفسهاء باستخدام الانحدار اللوجيستي» وأشجار التقسيم (أشجار الانحدار 
والتصنيف في المنمذح)» والشبكات العصبية. ولأجل مقارنة أكثر» نقوم بتشغيل 
النماذج» مستعملين بيانات متوازنة وغير متوازنة» والنتائج معروضة في الجدولين. 
رقم 4.9 و5.9. 


أما في البيانات غير المتوازنة» فتتفوق آلات متجهة الدعم بقليل من حيث الأداء 
على المصنفات الثلاثة الأخرى في بيانات التدريب. لكنها أقل أفضلية بشكل واضح 
في بيانات الاختبار. ولكن هذا لا يعني بالضرورة أن تكون النماذج مفرطة في 
التناسب. وفي نهاية المطاف» حققوا الأفضلية في مجموعة التدريب لكنها منافسة» 
وفي أغلب الأحيان أحسن في مجموعة الاختبار أيضاً. وفي هذه البيانات» فقط دوال 
النواة المتعددة الحدود هي التي تبدو مفرطة في التناسب. أما نواة دالة القاعدة 
الشعاعية» فتتفوق على JS‏ المصنفات المنافسة في بيانات الاختبار (على الرغم من 
أن ذلك لا يتم على نحو كبير). 
الجدول رقم 4.9: مقارنة أداء آلة متجهة الدعم مع المصنفات الأخرى باستخدام 
بيانات غير متوازنة. 
الدقة الدقة الحساسية الحساسية الخصوصية 
(التدريب) (الاختبار) (التدريب) (الاختبار) (الاختبار) 


نواة دالة القاعدة يوي 188.9 166.45 60.72 96.03/ 
الشعاعية 
آلة متجهة 
الدعم (نواة 
الدالة المتعدد 
الحدود) 


790.78 7/67.06 789.67 785.95 £97.03 
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الدعم الخطية 
الانحدار 

اللوجيستي 

شجرة التقسيم 


الشبكة العصبية 


Lad 


/.87.82 


/88.3 


/86.73 
/87.62 


188.14 


/88.02 


2108 
2312 


/.60.64 


162.5 


1.65.80 
159.35 


158.06 


20.21 


2251 
/.58.30 


1.95.73 


1.95.27 


791.39 
195.88 


الجدول رقم 5-9: مقارنة أداء آلة متجهة الدعم مع المصنفات الأخرى باستخدام 


al gs‏ دالة 
القاعدة 
الشعاعية 


الدعم (نواة 


الدالة المتعدد 


الحدود) 


الدعم الخطية 


الانحدار 


اللوجيستي 


شجرة التة لتقسيم 


الشبكة 
العصبية 


الدقة 


7.83.84 


/ 88.52 


/84.21 


7.83.32 


7.80.6 


7.85.16 


بيانات متوارنة. 


الدقة 


784.11 


181.54 


181.57 


83.5 


1116 


/82.40 


الحساسية 


180.77 


7.89.38 


184.64 


7.81.87 


790.81 


7.88.84 
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Petes A 
(التدريب) (الاختبار) (التدريب) (الاختبار)‎ 


/82.12 


1.77.64 


/82.06 


/80.91 


7.84.53 


/.86.33 


الخصوصية 
(الاختبار) 


/85.97 


/85.41 


/81.08 


/85.71 
171.55 


/.78.63 





وتتألف البيانات - بشكل غير متناسب - من نتائج سلبية» وفي هذه الحالاات 
تميل المصنفات في الغالبء إلى الفشل عبر سوء تصنيف الإيجابيات. إذنء إن قياس 
حساسية النموذج (نسبة الإيجابيات المصنفة بشكل صحيح) مهم للفحص. ومن 
المهم خاصةء فحص الحساسية في مجموعة الاختبار. وهنا تبين آلات متجهة الدعم 
عن أفضليتها. وباستثناء آلة متجهة الدعم الخطية» التي لا تستغل رسم البيانات في 
حيز عالي الأبعادء تبقى آلات متجهة الدعم أفضل من الطرق الأخرى في العثور على 
Yost. a A are le‏ 
«feed igus‏ بوسجة A‏ ذم انل رت Lad‏ من rine yaad JIS‏ 
الحالات إلى الفئة الغالبة. 


وعندما نتحول إلى البيانات المتوازنة» نجد أن آلة متجهة الدعم إلى جانب نواة 
دالة القاعدة الشعاعية أفضل - نوعا ما - من الانحدار اللوجيستى» والشبكات 
ل عو ا dala‏ زمره ی gtd‏ دوال اله يععية الدع degen ge‏ 
بالإفراط في التناسب AG‏ وإن آلة متجهة الدعم لدالة قاعدة الشعاع» تفوق بقليل 
مصنفات المنافس من ناحية الحساسية» ولكن شجرة التقسيم والشبكة العصبية 
يفوقانها من حيث الحساسية. وأما مسألة عدم تفوق آلات متجهة الدعم في الآداء - 
بشكل كبير - على منافسيهاء فقد تكون تلك دالة بيانات (يمكن أن تكون قابلة 
للانفصال خطياً مع عدم منح آلات متجهة الدعم أية امتياز) أو بيانات تنفيذ خاص في 
المنمذج (وهذا ليس Lt‏ مرنا خاصةء من ناحية تعديل المتغير). ومن ناحية أخرى. 
إن خوارزميات المنافس» جيدة جدأ في تصنيف البيانات في العديد من الظروف. 


إننا نقترح أن يجرب الباحثون آلة متجهة الدعم في أوساط البحث في العلوم 
الاجتماعية» واستعمالها في حالات تتفوق فيها على المصنفات. وبالإإمكان استخدام 
OI‏ متجهة الدعم لتوليد درجات الميل De‏ وقد يكون هذا مفيدا لغايتك» وقد لا 
يكون كذلك. وإن تطبيق منمذج الات متجهة الدعم ليست مفيدة خاصة من ناحية 
تزويدها L‏ بمعلومات عن علاقة السمات بالنتيجة» ذلك بأنها لا تخبرنا عن النموذج 
الذي تبنيه من أجل التصنيف. ولكن على العموم» إن قوة آلات متجهة الدعم الحقيقية 
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- أي قدرتها على رسم البيانات في حيز عالي الأبعاد. عبر دالة نواة - يجعلها مبهمة 
تماما. وفي هذا الصدد. فهي تشبه الشبكات العصبية؛ وإن تحويل النواة ليس في 
الواقع علبة سوداء EE ane‏ ومع ذلك» ينبغي اسكتشاف iene aul‏ 
الدعم بما أنها أثبتت نفسها بشكل كبير» على أنها بارعة في تصنيف البيانات المعقدة 
في العديد من الأوساط العملية. 

أمثلة التنبؤ عبر مصنفات متنوعة 


لقد راجعنا bode‏ من خوارزميات التصنيف وتم تطوير طرق أخرى عديدة (اثنتين 
منها - أشجار التقسيم والشبكات العصبية - سيتم تغطيتهما بالتفصيل في الفصول 
اللاحقة). وأكثر من ذلك» أن بعض الباحثين» قد طوروا العديد من المتغيرات في JS‏ 
طريقة على حدة. وإن الأسئلة الطبيعية التي تطرح في هذه المرحلة هي: أيهما أفضل؟ 
وأي متغير ينبغي استخدامه؟ هل هناك متغير أكثر دقة وخال من الغموض؟ وهل 
تعتمد على البيانات؟ وإن صح ذلك» فهل هناك قواعد صعبة وسريعة (أو حتى قواعد 
بديهية) لاختيار المصنف إن كنت أعرف شيئا عن البيانات؟ 


لسوء الحظء جواب JS‏ هذه الأسئلة المطروحة هو: النفى على الإطلاق؛ أو 
as eV‏ بهذا ترقت على سباق الال gS‏ ام على م اعاالات ف Je‏ 
اها ققد Lege — Gj‏ عن GUS‏ ك انه من Lait‏ ضور Lt‏ باعتارة hee‏ 
عملية. علاوة على ذلك» إن المصنف الأفضل - في بعض الأحيان - هو مسألة تتعلق 
«بالأشياء الأخرى» التي يقوم بها المصنف أثناء عملية التصنيف. سنقضي» على سبيل 
المثال» بعض الوقت في أشجار التقسيم» ليس لكونها قوية بالضرورة في مهام 
التصنيف (على الرغم من أنهم في الغالب كذلك) أو OY‏ نتائجها تعمّم جيداً على 
العينات الخارجية (على الرغم من أنها كذلك)» لكن OY‏ نتائجها مرنة للغاية. وتسمح 
pet dy Aly WJ‏ ة ذاتياء آل begs — a‏ مات إلى الخلاقة بين الج ومقابيسن 
المتنبع» LS‏ تطلعنا على أشياء عنهاء لا يطلعنا عنها - بالضرورة - الانحدار 
اللوجيستي. ويمكن أيضاً استعمال الشبكات العصبية لمساعدتنا على فهم العلاقات 
المعقدة اللا خطية» Le par‏ لما يتم دمجها مع برمجيات التصور مثل «الغامب برو». 
وعند هذه النقطةء لا يزودنا كل من مصنفات ع!-أقرب الجيران» وآلات متجهة الدعم 
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JS‏ هذه المعلومات المتعلقة بالمتنبئات نفسها على الرغم من أنها (جدلا) أفضل في 
بعض مهمات التصنيف المعقدة. 


ولكن ثمة جواب آخر لهذا السؤالء يتمثل في عدم ضرورة اختيار طريقة واحدة 
أفضل. وممكن جدا مزج نتائج العديد من خوارزميات التصنيف في نتيجة واحدة 
نهائية. ويبقى المشكل في القيام بهذه بطريقة تتوسل بنقاط القوة النسبية» بدلا من 
نقاط الضعف النسبية لمختلف تقنيات (Xu, Suen, Kryznak 1992) Canes!‏ 
وقد يستطيع الشخص الحصول على تصنيف ماء أكثر قوة من أي تقنية بمفردهاء 
وذلك من خلال مزج الطرق. ولكن هذه النتيجة ليست مضمونة» وربما لا يعد هذا 
حتى الأساس المنطقي الأفضل لمزج المصنف. وثمة أساس منطقي Ol‏ يساعد 
على مزج المصنفات على تقليص احتمال أن تؤدي النتائج التمييزية انطلاقا من 
اختلافات أي طريقة من طرق التصنيف. إلى القرار النهائي للتصنيف. ومن الأرجح 
أن يعطي مزج المصنفات نتيجة أكثر سلاسة (Smoother)‏ نتيجة قد تكون قادرة 
على التعميم بشكل أفضل نوعا ما. وبهذا المعنى» تصبح عملية مزج المصنفات 
شبيهة أكثر بالتعبئة (أو بغابات عشوائية) مقارنة بالتعزيز بحسب منطقها. 

عملية مزج المصنفات في case‏ الحزمة الإحصائية للعلوم الاجتماعية 


في منمذج الحزمة الإحصائية للعلوم الاجتماعية» تتحقق ilas‏ مزج المصنفات 
بسهولة عبر استعمال عقدة المصنف الذاتي. وهذه عقدة مستقلة» تسمح للمستعمل 
بانتقاء مصنفات مختلفة والمّعلمات التي تتحكم في كيفية اختيارها ومزجها. 
وباستعمال هذه العقدةء سيكون الإغراء - في الغالب - متجها ببساطة نحو استعمال 
الإعدادات الافتراضية» الخاصة JS‏ نوع من المصنفات المستخدمة؛ وإذ goed‏ من 
هذاء فإننا نقترح بدلاً من ذلك» الضبط بعناية JS‏ نموذج على حدة ليصبحوا نماذج 
مثالية قبل التصنيف. وإن استعمال أدوات التنقيب في البيانات - كما هو الحال دائما 
- بعناية وبحكمة» هو أمر مفضل. 


ومرة أخرى Las‏ بانتقاء بياناتنا من بيانات مسح المجتمع الأميركي التي 
سنستعملها في توقع تغطية التأمين الصحي. ونتيقن - في جدولة النوع (لوحة عمليات 
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المجال) - من أن يخصص للمتغيرات» المستوى الصحيح للقياس» وبعدها نقسم 
ollie‏ المجال). 9 Aas‏ ذلك» وفي لوحة النمذجة. نختار المصنف الذاتي. 


وبعد انتقاء النتائج» والمتنبئ ومتغيرات التقسيم» نستمر في تأسيس مصنفاتنا. 
ونقترح بدلاً من التوجه MV sh‏ جدولة النموذجء نقر «خبير»» والمضي ناحية اليمين 
لتحديد المصنفات وإعداداتهم. وإن القيام UL‏ يقدم لك شاشة كتلك المعروضة 
في الشكل رقم 14.9. ويختار لك البرنامج تلقائياء مصنفاً من أصل ثمانٍ مصنفات. 
بحيث يكون JS‏ واحد إعداداته الافتراضية. وستحتاج إلى تحرير هذه الشاشة لضم 
النماذج التي تريد. ومن المهم ملاحظة بضعة أشياء ينبغي أن توجه هذا القرار. 

أولاً: يمكنك الحصول على نسخ متعددة لمصنف واحد JS‏ بإعدادات معلم 
مختلفة. هل تعذر عليك البت في ما إذا كنت تريد آلة متجهة الدعم ذات دالة قاعدة 
شعاعية أو نواة سينية؟ لا بأس - قم بضم JS‏ واحدة منها. وبإمكانك EI‏ فيما إذا 
كنت تريد ضم JS‏ النتائج أو فقط الأفضل منهاء في تنبؤك النهائي. 

انياً: تذكر أن مزيدأ من النماذج» يعني معالجة بيانات أكثر. وهذا يعني - بدوره 
- بكل تأكيد» مزيداً من الوقت» كما يعني أيضاً - ولسوء الحظ - احتمالية أكبر 
لتجميد البرنامج أو انهياره. ويستحسن القيام بتجربة بسيطة حول هذا قبل تجريب JS‏ 
شيء دفعة واحدة. وهذه أيضاً فائدة من فوائد خوض التجربة مسبقاً مع نماذج فردية 
بشكل عرضي. 

سنقوم بانتقاء خمس نماذج - الانحدار اللوجيستي» و)-أقرب الجيران» وآلة 
متجهة الدعم وشجرة تقسيم واحدة (وتسمى هنا شجرة (CER‏ - وبتعديل إعدادات 
كل واحد منها. وسنعود الآن إلى جدولة النموذج ( الشكل رقم 15.9) والقيام بتعديل 
القواعد لمزج النتائج. 
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الذاتي في منمذِج الحزمة الإحصائية للعلوم الاجتماعية. 


أولا: قم بانتقاء عدد النماذج التي ترغب في استعمالهاء وإن كنت بصدد oly‏ عدد 
كبير من النماذج فسيكون بعضها - على ما يبدو - غير دقيق» وقد لا تريد استعمالها. 
ونحدد مجال «عدد النماذج التي نريد استعمالها» في 4» مما يعني أننا سنسقط نتائج 
نموذج واحد. ونرتب بحسب الدقة العامة (أما الاختيار الآخرء فيتجلى في عدد 
المجالات) لكي نحافظ على أربع نماذج أكثر دقة» فضلاً عن ذلك» نكتار Sl‏ تب 
حسب آلدقة فى جزء الاتخنار بدلا من مجموعة آلتدریب حتى يكوث بإمكاتثا انتقاء 
مزج النماذج التي تعمم بشكل أفضل على البيانات الخارجية. 


ولكن كيف يمكننا تحديد النموذج الأكثر دقة؟ هذا يتوقف على إعدادات 
التكاليف والعائدات والترجيح. وإن JS‏ ترصد أو سجل «يكلف» النموذج قدراً معيناً 
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بعض الحالاات عوضا عن أخرئى: على سبيل المكال» AUS‏ «اتمثل» أشخاصاً 
عديدة في ساكنة ما بدلا من عدد قليل من الأشخاص نسبياً. 


سس هلس سيد مهم سا لو يخس Np‏ سس to‏ مھ ھک ووو تت نس لبي م لحي مھم ی سے ل سمي ھی ا ا م یکلم a‏ ملم ظا د عه nanan‏ عي مسح م 


Estimated number of models to be executed: 5 


i 7 LIR Crteria (vaid only for fag targets) 
|| Percentile to use for ift calculation: [ 208 





الشكل رقم 15.9: وضع مَعلمات تحديد الدقة في المصنف الذاتي. 


وفي جدولة الطرح (Discard)‏ يمكن للشخص اختيار طابق من أجل إدراج 
النموذج. وهذا يعني أن النماذج التي تفشل في الحصول على de‏ أدنى معين من 
مستوى 6435 اختاره الباحث» ستطرح وإن كانت من أفضل النماذج. EE‏ الواقع. 
يمكن للشخص اختيار طوابق مختلفة - مثل نسبة الدقة أو الفائدة الإجمالية» أو 
المساحة تحت منحنى خاصية التشغيل المتلقى (ROC)‏ ونفضل حذف فقط حالاات 
غير اسا کل عد عداء Gull hus‏ آقل عور Cod Eley LOO‏ مج 
خاصية التشغيل المتلقي (ROC)‏ أقل من 0.65 
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وأخيرا = باختيار الطريقة لمزج (ol po YI‏ من نمادج مفمختلفة (جدولة 
الإعدادات» س رقم 16.9). وتذكر أن النماذج لا تحسب فقط فئة متنبئة JSS‏ 
ae‏ بل أيضاً ثقة في هذا التصنيف. وبعدهاء يمكن للشخص تبني النموذج ذي الثقة 
العالية لكل ساك Sey gh‏ للب LAI al‏ يسبويت آغآبية بسيطق أو يمك أن 15252 
تصويتاً مرجح الثقة. واعتبر هذا شبيهاً بإجراء التصويت في تصنيف »-أقرب 
الجيران. ويمكن للتصويت أن يطرح إشكالية إذا كان هناك عدد زوجي من النماذج» 
التي ستفصح عن القرار» ولكن المنمذج هناء يقدم اختياراً بشأن ما يمكن القيام به في 
حالة تعادل اختيار عشوائي أو ثقة أعلى. ونفضل استعمال تصويت الثقة المرجحة. 


ويشغل النموذج كلا من النماذج الخمسة قيد البحث وحوسبة دقة JS‏ واحد 
منهاء ثم يطرح الأقل دقة» الذي كان في هذه الحالة الانحدار اللوجيستي. وبعد ذلك 
يأخذ القيم المتنبأة بالنسبة إلى مجموعتي الاختبار والتدريب» من كل النماذج 
المتبقية» ويمزجها من خلال منح كل واحد منها صوتاً مرجحاً لثقة النموذج المقدرة. 
مسا T‏ يباين ج41 ee‏ 









f ١ ١ ® Random selection © Highest confidence 
|| | © Raw propensity 


| 
| | if voting is tied, select suka noe 
| 
| 
| 
| 
| 
| 


الشكل رقم 9 اختيار الطرق من أجل مزج متنبئات من مصنفات متعددة. 
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الحدول رقم 9 : مقارنة أداء تمازجات مؤمثلة للمصنفات مع المصنفات الفردية. 


الدقة Bu‏ الحساسية الحساسية 

(التدريب) (الاختبار) (التدريب) (الاختبار) 

الانحدار اللوجيستي 772.19 773.06 7.73.91 7.12.27 
-k‏ أقرب الجيران 214 112.53 112.76 2.7 

آلة متجهة الدعم 778.60 772.70 774.90 72.02/ 
الشبكة العصبية 772.63 773.75 776.16 71.52/ 
شجرة التقسيم 775.35 773.19 775.61 7.70.95 
مصنفات المزيج £79.72 775.71 7475.95 7.75.48 
izak‏ ات AAT‏ ° ).4 180.94 776.63 176.98 76.31/ 


وكما يشير الجدول رقم 6.9 إلى US‏ إن مزج المصنفات يتفوق بالفعل من 
حيث الأداء. على روتينيات التصنيف الفردي. علاوة على ذلك» يتفوق هذا المزج 
على جميع المصنفات الفردية على مستوى بيانات التدريب والاختبار» وتقوم بذلك 
في الوقت الذي تحقق فيه التوازن بين تصنيف الإيجابيات الصادقة والسلبيات 
الصادقة بشكل صحيح. وتوضح هذه النتائج وجود شيء يكتسب عبر مزج 
المصنفات» طالما أن الشخص يقوم بذلك بعناية. وبالنتيجة» على الأرجح أن يقوم 
مزج خمس نماذج سيئة بأداء أسوء من أي نموذج جيد (على رغم من أنه قد يقوم بأداء 
أفضل من AS‏ النماذج الخمسة من تلقاء نفسها). ومن ناحية أخرى» ليس التحسن 
te‏ | في هذه الحالة» على الرغم من أنه ملحوظ. وثمة سببان وراء هذا. 

أولاً: إِنَ كلا من النماذج الفردية تعمل - سلفاً - عملاً جيداً (وخذ بعين الاعتبار 
أن eee e‏ ~~ الحالة). 
كبير - إلى حد ما - في هذا النموذج (المنطقة. 
ا ووضع سوق الشغل Js‏ الأسرة» he poly‏ والعرق» bl golly‏ 


256 


والحضور المدرسي» والحالة الاجتماعية)؛ فمتنبئاتنا لا تقدم - ببساطة - للمصنف 
مادة خاماً من أجل تنبؤ أفضل. وهذه نقطة مهمة تسجل؛ فالتنقيب فى البيانات طريقة 
ذكية للرفع من القوة الحسابية الخام» ولكنه ليس حلاً في de‏ ذاته للبيانات الرديثة» أو 
المعلومات غير الكافية» أو الخطأ فى القياسء كما يمكن للتنقيب فى البيانات» 
تحسين التنبؤ حتى مع البيانات الروت لكن الطريقة الأفضل لتحسين التنيق تبقى 
نفسها ما دام أنها كانت في القرن العشرين - الحصول على بيانات أفضل . 


ولكن يمكننا - في الحقيقة - القيام بأفضل من هذا عبر تزويد كل من المصنفات. 
ببعض المتغيرات التي قد سبق أن حسناها. (انظر الجدول رقم 6.9 مجددا). ونتوسل 
هنا بمتغيرات الورقة (التي تمت مناقشتها مسبقأء تحت استخدام أشجار التقسيم 
لدراسة التفاعلات» وكذا الدخل» والمجموعات العمرية» التي تم توليدها منهاء من 
شجرة التصنيف المستخدمة من قبل لتوليد تفاعلات معقدة. ومن خلال استخدام 
هذه المتغيرات» وتلك التي كنا نستعملها في السابق. نكون قادرين على الدفع نحو 
تحقيق الدقة التنبؤية. وهذا مثير للاهتمام لأننا استخدمنا شجرة التصنيف كواحدة من 
نماذج التكوينء ونظرياً كان بالإمكان إيجاد ليس فقط المجموعات التي biy‏ من 
شجرة التقسيم الصغيرة» وإنما مزيدا من مجموعات ذات دقة متناهية. ومع ذلك. إن 
تغذية الخوارزمية بأكملها من هذه المجموعات» يحسن من قوة تنبؤية عامة. 
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الفصل العاشر 
أشجارا veer vi‏ 


إن شجرة التصنيف - كما طورها بريمان (Breiman etal)‏ (1983). (المعروفة 
Lal‏ باسم شجرة الانحدار (CART)‏ أو مربع كاي للكشف عن التفاعل التلقائي 
(CHAID)‏ أو شجرة القرارء أو شجرة التقسيم) - هي بطرق ماء أداة التنقيب في 
البيانات النموذجية: بسيطة» وفعالة» وكثيفة الحوسبة» ولا معلمية» وتعتمد على 
obi‏ بشكل (ples‏ فهى Vol‏ وقبل كل شىء مصتف» تستعمل pakas‏ المدخل 
Gl‏ ردم OVE! pas‏ الفئات ذات قيم مختلفة على مستوى نتيجة ذات 
أهمية. ولا يهم إن كان متغير النتيجة أو متغيرات المدخل ثنائية» أو فثوية» أو مستمرة؛ 
فيإمكان شجرة التقسيم معالجتها بأكملهاء والتعامل معها بالطريقة نفسها تقريبا. ومع 
ذلك» تكون أشجار التقسيم أكثر بساطة لدى استعمالها بنتيجة ثنائية» لذا سنركز 
عليها. 

تتوافر أشجار التقسيم (Partition Trees)‏ - باعتبارها مصنفات - على ميزتين 
إضافيتين مقارنة مع أدوات تقليدية من قبيل الانحدار اللوجيستي؛ فهي: 

أولا: موجهة نحو تنبؤ متغير النتيجة» بدلاً من تقدير المَعْلمات Bay‏ بالنسبة إلى 

ثانياً: إنها غير مقيدة لتقدير متوسط العلائق؛ بل بدلاً من ذلك. طورت مجموعة 
عدا فعقدة و مدد ops‏ ق رات الصف القن Gases (Sty fod‏ يشان ely VI‏ 
المختلفة من البيانات. l‏ 
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كيف تعمل أشجار التقسيم؟ إنها تشرع في الاشتغال على JS‏ البيانات» وتركز 
على متغير النتيجة المحدد من لدن الباحث. ويحدد الباحث أيضا مجموعة من 
متغيرات المتنبأ المفيدة احتمالاً في مهمة التصنيف. وتقسم شجرة التقسيم العينة 
عند JS‏ قيمة لكُل متغير مدخل. وفي Bye JS‏ تحسب مدى كفء هذا التقسيم في 
فصل حالات بين فئات مختلفة من فئات متغير النتيجة؛ إذ تختار المتغير والقسمة 
الذين قاما بأداء جيد فى مهمة الفصل هذه. مخلفة مجموعتين فرعيتين (أو عقد 
منحدرة) tas p (Descendant Nodes)‏ من العينة ككل (العقدة الجذر) 
.CRoot Nodes)‏ وتتكرر العملية في کل عقدة من العقد المنحدرة. لتنتج أربع 
مجموعات» ثم تتكرر في منحدراتهاء وهكذا. وتستمر أشجار التصنيف على هذا 
النحو إلى غاية الحصول على مجموعات متجانسة من الملاحظات المتجانسة تماما 
أو بلوغ نقطة توقف معينة. 

ويعد هذا الإجراء شبيهاً بتتائج متعددة الفئات. وفي هذه الحالة» تحاول شجرة 
التقسيم أن تقسم البيانات إلى مجموعات فرعية متجانسة قدر IY‏ مما يعني في 
نهاية المطاف - مع الأخذ بعين الاعتبار Lad‏ كافياً من التقسيمات - أنها ستنتج عقدا 
يسيطر عليها صنف أو آخر على نحو واضح. وستعمل التقسيمات الأولية في اتجاه 
تحقيق هذه الغاية» ولكن ليس من المرجح أن تنتج عقدة متجانسة بشكل مثالي. 
والأمر نفسه ينطبق - بطبيعة الحال - على نتائج ثنائية أيضا. 

أما بالنسبة إلى النتائج المستمرة» فلا يمكن للإجراء تقسيم الحالات إلى فئات 
متجانسة» بل ينتج - عوضا عن ذلك - مجموعات فرعية» حيث قيم متغير النتيجة 
متماثلة قدر الإمكان (مما ينتج تباينات كبيرة في المعدلات عبر مجموعات فرعية). 
وهكذا - مع الأخذ بعين الاعتبار تقسيمات متعاقبة - يخلق الإجراء مجموعات 
فرعية من البيانات حيث التباين على مستوى المتغير التابع مقلص بشكل كبير. 

lay‏ أن الأشجار تعتمد كثيرا غلى YS all‏ تناقض بشكل كبر التقتيات 
الإحصائية الكلاسيكية التي تولي الأولوية لاختبار الفرضية. وإن طريقة الشجرة, لا 
کچ alent oles et ool‏ انحلا tle‏ ت Y‏ را عا US IS]‏ معي Lace cle‏ 
نتيجة )13 9 DY‏ شبكة متنبئات أخرى. ولهذا السببء استقبل مجتمع العلوم الإنسانية 
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أشجار التقسيم بفتور في أحسن الأحوال. (انظر Oe‏ رودجير وآخرين 
(Ruger el al. 2004: Weerts and Ronca 2009)‏ وتستخدم الأشجار على نحو 


واسع في ميادين من قبيل علم الأوبئة» والنمذجة الإيكولوجية. 
وتعد الأشجار قيمة بالنسبة إلى الباحثين لأسباب ثلاث على الأقل؛ فهى: 


أولاً: على ما يبدو أفضل في إنتاج تنبؤات دقيقة من الانحدارات» مثلاً. وإذا ما 
زودت ببيانات كافية ومتغيرات مستقلة كافية» فستنج نموذجاً أكثر تناسباً. 


ثانياً: فيتمثل في عدم وجود أي حدود بشأن عدد المتغيرات المستقلة التي يمكن 
إدراجها داخل نموذج cle‏ ولا توجد صلة هنا بمعضلات درجات الحرية. 


الثاً: وكما فصلنا القول فى ذلك سابقاً - يتمثل فى كون أشجار التصنيف جيدة 
للغاية في إيجاد التفاعلات والعلاقات اللا خطية. ويمكن لنماذج الانحدار فقط 
التعامل مع الأشكال اللا خطية فقط إذا كانت محددة مسبقا من لدن الباحث» وتميل 
التفاعلات فى الانحدار إلى الانحصار فى متغيرين أو ثلاثة على الأكثر. فى المقابل. 
تولد أشجار التقسيم تفاعلاات معقدة آلب ومن ثم فهي أداة قوية في LoS!‏ 
BUSAN‏ 


وتتدفق إحدى عيوب أشجار التقسيم مباشرة من رحم نقاط القوة هذه» إذ عبر 
مرونتها وعقدتهاء تتمكن الأشجار من توليد نموذج تنبؤي أكثر دقة. ولكن الشجر 
التى نشأت fol‏ مجموعة بيانات كبيرة» وتستعمل العديد من المتغيرات» ستكون 
oT‏ ب يد ith‏ اللي ول عار يدا ين 
من قوة التمييز أو التنبؤ تخسره في التقتير. 

عندما تشرف أشجار التقسيم على نهايتهاء تواصل تقسيم البيانات حتى لا يتبقى 
منها سوى عقد طرفية (Terminal Nodes)‏ (أو «أوراق») متجانسة جداء مع وجود 
OYE‏ أو ترصدات قليلة جداً في JS‏ واحدة منها. ومع ذلك» يمكن للباحث تحديد 
قاعدة توقف لمنع هذا التطور. مشلا يمكن تحديد حجم أدنى للقسمة. caleg‏ 
فالشجرة لا تقسم عقدة ما إذا كان لأي من العقد الناتجة أقل من عدد معين من 
الحالات. إن قواعد التوقف مهمة, OY‏ هدفنا - ale‏ - ليس ببساطة تصنيف البيانات 


261 


الخاصة التي حصل أن فحصناهاء وإنما تطوير نموذج يتنبأ جيداً على العموم. كن 
ond ee ee ee‏ كرا يرا من 
iia E‏ ال Sika tk soda‏ 
التناسبية واختباره» ينبغي أداء الصلاحية المتبادلة» وعندما يتم أداء الكابح العشوائي 
تستخدم بيانات التدريب لبناء شجرة ماء وتسقط بيانات الاختبار DIT‏ من الشجرة. 
وإذا كانت البيانات منقسمة إلى ثالاثة celal‏ فإن مجموعه التدريب تستعمل لزرع 
شجرة ers cle‏ معايرتها أو موالفتها بدقة باستخدام مجموعة الصلاحية. وتزال 
(تشذب) الفروع التي تساهم في عملية الإفراط في التناسبية خاصة» داخل مجموعة 
الصلاحية» مخلفاً نموذجاً يقبل التعميم على الأرجح. وأخيراء تسقط مجموعة 
الاختبار الشجرة الموالفة. موالفة دقيقة من أجل اختبار مستقل لدقة النموذج. Nios‏ 
من ذلك» يمكن أداء الصلاحية المتبادلة لطية -k‏ 


مثل في الغامب برو 

ظلت أشجار التقسيم حاضرة لفترة لا يستهان بهاء وخرّرت روتينيات بالنسبة ل 
R‏ ومنمدج الحزمة الإحصائية للعلوم cla YI‏ والحزمة الإحصائية للعلوم 
الاجتماعية. والستاتاء والماتلات من بين حزمات برمجية أخرى. وستعرض الأشجار 
مستخدمين روتين تقسيم الغامب بروء الذي نستحسنه لسهولة استخدامه» ومرونته. 
وجودة التصور الذي يقدمه. 


سنبين عملية أشجار التصنيف» مستخدمين بيانات من مسح المجتمع الأميركي. 
وانتقينا عينة فرعية من هذه البيانات التي تحتوي فقط على بالغين تتراوح أعمارهم ما 
بين 65-25 سنة» وسبق لهم الزواج مرة واحدة على الأقل. وضمن هذه المجموعة. 
قمنا بمعاينة مفرطة بشكل ملحوظ لتشمل أفراداً سبق لهم الزواج ثلاث مرات أو 
أكثر. سنستخدم أشجاراً لفصل هؤلاء المتزوجين عن غيرهم في البيانات. 


ووم فيط i‏ (الشكل رقم 1.10) بانتقاء «حلل التقسيم المنمذج». 
تاد كجواب s9)‏ م المجال CY)‏ جواب) baij EF‏ مشفراً 1» إذا يزوج 
خفن ما لات مات أو ST‏ و0 دا كان Ke pV‏ ذلك ويعدها نار Ac pares‏ 
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oy‏ المتنتات (المجال MX)‏ عامل): الس مجموع jel‏ الفردي» التحصيل 
العلمى. والعرق» والمكانة (Agel‏ والجنوسة. ومنطقة البلاد. والحتسية/ مكان 
الولادة (مواطن da JL Sxl‏ أو أميركي be ltd‏ أو غير مواطن). 

وأخيراً: نختار جزءاً من البيانات لاستبقائها من أجل التثبت من النموذج. ولدينا 
العديد من الحالات هنا - أكثر من 100.000 - لذا لسنا مطالبين باستخدام الصلاحية 
المتبادلة لطية -k‏ (على الرغم من عدم وجود أي مانع مبدئياً يمنعنا من القيام بذلك). 
وبدلا من ذلك» نحدد حصة الصلاحية في 60.33 مما يبقي على ثلث البيانات من 
اا nn‏ .1 يظهر ما لدينا قبل الإطلاق. 


ll cae m‏ اس 


|- Select Columns m~ Cast Selected Columns into Roles — 


io 1 1 
| =) 115 Columns ` |¥)Response | thrice_married | aaaea] |] 


i 9 I | N UA 3 
eq... [optional numeric kR 
gation | optional numeric 


BY 1| | optional 





a ERE ea STEAMER THe ee TESS I? RPS Te ETE SSE Ta ee 


٠‏ الشكل رقم 10 1 : إطلاق منصة التقسيم في الغامب برو. 


ننقر «موافق» (OK)‏ ریم eels‏ ا ته ا سین اک عا 
e‏ لبه lend‏ السبة الرفمية OMe‏ في کل عقا مو جردا ای کل ف من 
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اليمين «أظهر الخيارات» «(Display Options)‏ و«أظهر احتمالية التقسيم». ويبين لنا 
هذا أن 114.528 من حالاتنا كلها موجودة فى عقدة وحيدة (عقدة الجذر) وأن 41.8 
بالمائة «متعددي الزواج» (تذكر أننا وسعنا 5 معاينة هذه المجموعة» حتى لا تعكس 
معاملات التناسب كميات السكان). وإننا الآن على أتم الاستعداد للقيام بأول تقسيم 
للبيانات. بنقر الزر الذي يقول «قسم». 

لقد قسمت شجرة التقسيم البيانات إلى عقدتين اثنتين (الشكل رقم 2.10( 
بحيث تضم العقدة» إلى GL‏ فقط الأشخاص ممن تصل أعمارهم 43 Lele‏ أو فما 
فوق. Lely‏ العقدة الأخرى» فتحتوي على أشخاص أصغر من 43 Lele‏ وفي هذا 
المثالء فقط عقدة واحدة من العقد الناتجة (العقدة الموجودة على اليمين) تعد أكثر 
تجانساً من منتجها. أما العقدة الأخرى» فهي أقل تجانساً. ولكن على العموم - وعلى 
مستوى العقدتين معا - تم رفع التجانس (أو بلغة الأشجارء تم تقليص el‏ 
((Entropy)‏ وهذا ما يحاول الإجراء تحقيقه. 

وإذا ما أردنا معرفة مكان تقسيم عقدة ما لاحقأًء فإننا ننقر المثلث بجانب 
المرشحين (Candidates)‏ في أسفل كل عقدة. ويظهر هذا إحصاء القيمة الخوارزمية 
لکل متغير (أي إن قيمة أو مستوئ هذا المتغير الذي يقسم البيانات بشكل أفضل ). 
وسيختار الغامب برو المتغير ذا أكبر إحصاء للقيمة الخوارزمية. وهذه السمة مفيدة» 
لأنها تسمح لنا بمقارنة متغيرات في JS‏ مرحلة» مشيرة إلى الأجدى منها في تصنيف 
البيانات. 

بعد أن تم إنجاز المزيد من التقسيمات لبعض ee I)‏ أضحت لدينا صورة 
أفضل نوعاً ماء مما يميز متعددي الزواج. ونتبع أولاً الفرع الأيسر (الشكل رقم 
0 )> الذي يجد مزيداً من الفرق من بين أولئك الذين تبلغ أعمارهم 43 سنة أو 
أكثر. ويتم التقسيم الأول في هذه المجموعة. استنادا إلى الميلاد (المتغير (Cit2‏ مع 
أخذ بعين الاعتبار احتمال زواج الأميركيين الأصليين» بنسبة الضعف أو ثلاث مرات 
أو أكثر من ذلك» مقارنة بالمهاجرين (بصرف النظر عن وضعية مواطنة المهاجر). 
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(JAI Rows 


Count 642 LogWorth 
114298 15537147 3777.5441 
Level Rate Prob 
0 0.5819 0.5819 
1 0.4181 0.4181 













*lage<43 
25 
Count 


30974 27366.175 









0.4864 0.4864 || 0 0.8387 0.8387 
1 0.5136 0.5136 || 1 0.1613 0.1613 


> Candidates 


> Candidates | 


الشكل رقم 12.10 التقسيم الأول OULU‏ باستخدام شجرة التقسيم للغامب برو. 


كما ينقسم النموذج من حيث التحصيل العلمي» بين المزدادين اللآصَليين. اما 
الأفراد الحاصلين على الباكالوريوس» فلديهم معدل أقل بشكل ملحوظ من الزواج 
المتعدد» من زملائهم الأقل Shab‏ وتم تقسيم من التقسيمات حسب العرق من بين 
المهاجرين»› Lil‏ الا coy ge‏ فيبدو أنهم من غير المرجح أن yn‏ 9 جوا عله مرات 

وباتباع الفرع الموجود على الجانب الأيمن (الشكل رقم 4.10( الذي يحدث 
القسيمابين else‏ الأقل bene‏ س 43 Lele‏ تسد deed‏ أرق سسب الجر ققد 838 
عاما. ومن غير المرجح جدا أن يقوم أولئك الذين تقل أعمارهم عن 35 عاماء بالزواج 
عدة مرات (وتذكر أننا وسعنا بشكل ملحوظ من عينة المتزوجين ثلاث مرات). ومن 
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ضمن أولئك الذين تتراوح أعمارهم ما بين 42-35 تقسم الشجرة يدوا خب 
التحضيل العلمى» ومرة أخرى ليس ye‏ حا المشاركة فى تلات زييجات أو أكثر. 






* cit2(US cit by birth) 
== 2 







Level Rate Prob 
0 0.4557 04557 
1 0.5443 0.5443 


0.7572 0.7572 
0.2428 0.2428 





black, latino, Other) 
ENRE EFE 
Level Rate Prob 08672 08671 
06271 06271 O 07154 54 1 ٠ 01328 0.1329 
0.4003 04003 0.3729 03729 1 02846 46 r FF 


05997 7 > Candidates > Candidates 
> Candidates 





aT a 
Level Rate Prob 
0 0.8387 7 


1 0.1613 0.1613 


















Level Rate Prob 
0 0.7646 0.7646 
1 0.2354 0.2354 







0.9385 0.9385 
0.0615 0.0615 






0.6957 0.6957 
1 0.3043 0.3043 


> Candidates 


الشكل رقم 4.10: اتباع الفرع الموجود على الجهة اليمنى لشجرة تقسيم ما (الغامب برو). 
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R-Square 











0 oo ae i a a, 
Number of Splits 

Measure Training Validation Definition = E 
Entropy RSquare 0.2003 0.1887 1- -Loglike(model)/Loglike(0) 
Generalized RSquare 0.3207 0.3043 (4-(L(0)/L(model))*(2/n))/(1-L(0)4(2/n)) 
Mean -Log p 0.5436 0.5508 5 -Log(pfj})/n 
RMSE 0.4305 0.4334 ~ S(y{j}-pljj)?/n 
Mean Abs Dev 0.3708 0.3738 3 ly{j)-pijli/n 
Misclassification Rate 0.2883 0.2946 ١ (p{j]#pMax)/n 
N 114298 56301 n 

Actual _ Predicted Actual Predicted 

Mon. 0 1‏ 3 جا 

E are 17261 | 24183 8716 

| T ¦ 15686 32104 | | 7869 15533 | | 





الشكل رقم 15.10 مخرج شجرة التقسيم في الغامب برو. 


إن «الغامب برو» يحسب Lal‏ إحصاء تناسبى مشغل» الذي يسميه R?‏ وفى 
الواقع» هذا هو شبه مربع مكفادين (McFadden’s pseudo-R?)‏ الذي يظهر مدى 
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تحسن النموذج الحالي مقارنة بالنموذج الصفري أو عقدة الجذر. وفى هذه النقطة. 


ولدينا هنا حالات عديدة في كل عقدة» ويمكننا مواصلة القيام بتقسيمات فردية 
إن كنا نرغب في ذلك. ولكن بدلاً من كل هذاء سوف نتتقل بسرعة إلى الأمام» وننشاً 
الشجرة برمتهاء وذلك بنقر «انطلق». 

لقد أنشأ «الغامب برو» شجرة» ويمكن أن نلاحظ (الشكل رقم 5.10) تقسيمه 
للبيانات إلى 116 مرة» وهذاء دفع شبه مربع «مكفادين» إلى بلوغ 0.189. في مجموعة 
الصلاحية. ويظهر WS‏ «الغامس Cap‏ تاريخ التقسيم على مستوى تناسب النموذج. 
ويظهر هذا منحنيات تحسن متفرقة بالنسبة إلى مجموعة التدريب وإن خط التدريب 
أعلى قليلاً من خط الصلاحية» OV‏ القوة التنبؤية هى دائماً أعلى من مجموعة 
ob J gle wl Lal bey Ca‏ من pda ol‏ ال قوسن جا تن الحم 
الصرف لمجموعة البيانات مقارنة بعدد السمات» ضمن عدم وقوعنا في BI BY!‏ في 
التناسب بقدر كبير جداً. وتظهر هذه النافذة أيضاً التصحيحات بالنسبة إلى الإفراط 
فى التناسب. ولاحظ الخط الأسود العمودي فى 116» الذي هو عدد التقسيمات فى 
الشجرة الأخيرة. وتم إيقاف الشجرة هناء لأن صلاحية lel R?‏ مما كان. بعشر 
cg tl splay dale) OL‏ اتتهد Cols‏ رو هله peal Slat)!‏ 
الإضافية» ثم حسب LE REII‏ الشجرة الأصغر من خلال تشذيب الشجرة الأكبر 
من أجل تنبؤ مثالي في مجموعة الصلاحية. 

للحصول على مزيد من قياسات التناسب» ننقر المثلث الأحمر بجانب نة F‏ 
المتزوجين ثلاث مرات)» ثم ننقر «أظهر تفاصيل التناسب» (Show Fit Details)‏ 
وضمن «تفاصيل التناسب»» يمنحنا «الغامب» عددا من الإحصائيات» بمساعدة 
الصيغ التي يستخدمها لحسب هذه الإحصائيات. ويوفر صيغتين من RI‏ التي يسميها 
«أنتروبي R? o R?‏ المعممة) (صيغ مکفادین» و کو کس (Cox)‏ وسنيل (Snell)‏ على 
التوالي)» كما يوفر أيضاً متوسط خطأ الجذر التربيعي» ومتوسط الانحراف المطلق. 
ومعدل سوء التصنيف. 


هذا منبر جيد للإشارة إلى مدى بت أشجار التقسيم في «الصنف» التي ينبغي أن 
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تنتمي إليه حالة ما. لقد سبق أن ناقشنا كيف أن خوارزمية التقسيم ستنشأ شجرة ما إلى 
حين بلوغ نقطة توقف cle‏ مما سينتح مجموعة من العقد النهائية (أو «الأوراق»»» التي 
يحتوي جميعها على حالات من كلا صنفي النتيجة. Lil,‏ صنف عضوية المتنباً به 
فتم البت فيه ببساطة عبر تصنيف JS‏ حالةء بصفتها تنتمي إلى صنف النتيجة لغالبية 
الحالات التي في عقدتها النهائية. وإن نسبة سوء التصنيف هي ببساطة قياس لتسبة 
الحالات غير الصحيحة المعيئة من قبل هذا الإجراء. 


يسمح «الغامب برو» أيضاً للباحث بإنتاج منحنيات خاصية التشغيل المتلقي 
(ROC)‏ وهي وسائل مفيدة خاصة لتقييم أداء مصنف cle‏ مثل شجرة التقسيم 
(الشكل رقم 6.10). فهي تقوم بتخطيط الحساسية أو (معدل الإيجابية الصادقة) 
بواسطة -1 خصوصية (أو معدل الإيجابية الكاذبة)» مبينين بذلك مدى جودة النموذج 
عموماً فيما يخص تنبو الصنف الذي تندرج ضمنه الحالات”". وإن المنطقة أسفل 
منحنى خاصية التشغيل المتلقى (ROC)‏ هى مقياس ممتاز للدقة التنبؤية: منطقة من 
5 تخبرنا عن أن النموذج ليس أفضل في التصنيف من تخمين عشوائي» كما تشير 
القيم العالية إلى درجة النسبة التي ساعد فيها النموذج في التصنيف. 

يقدم لنا كل ذلك فكرة جيدة جداً عن مدى تناسب النموذج للبيانات. ولكن ماذا 
يمكن للشجرة إخبارنا بشأن متغيرات المتنبيع؟ فى هذه المرحلة» نواجه مقايضة بين 
الدقة التنبؤية» وقابلية التأويل السهلة. لقد أنشأنا شجرة» صنفت بشكل صحيح حوالي 
0 من الحالات في مجموعة البيانات» liag‏ تحسن ملموس بشأن التخمين 


(1) إن الطريقة التي نقرأ بها منحنى... هي كالتالي: تصور أن حالات مرتبة من اليسار إلى اليمين ترتيباً يوافق 
الاحتمال المتنباً لنتيجة ماء كما تم إنتاجه من قبل نموذج . وكلما تحركنا من اليسار إلى اليمين, فإننا J put‏ 
بشكل متسق نحو الأسفل في احتمال تنبؤي من أعلى نسبة مئوية إلى أدناها. وفي JS‏ نقطة» تصنف JS‏ 
الحالات في جهة اليسار باعتبارها إيجابية (على مستوى النتيجة) وكل الحالات في جهة اليمين»ء تصنف 

La slack‏ سلبية is‏ ال LAN lit‏ ل و يي 
قبل النموذج في كَل نسبة مثوية لاحتمال Lae‏ ويمثل الخط القطري في أسفل المركز 50./. وهذا ما يتم 
الحصول عليه عبر التخمين العشوائي» أي إذا كان النموذج غير مفيد لمساعدتنا على تصنيف الحالات إلى 
فئات. كما تمثل المنحنيات الموجودة فى أقصى اليسار وفوق هذا الخط» تطورات على مستوى التخمين 
العشوائي. وهكذاء تظهر منطقة ما تحت المنحنى الأكبر من 0.5 أن النموذج يمثل عوناً في التنبؤ. وهذا 
يسمح بالقيام بمقارنة عبر النماذج» ومع مصنفات ثنائية أخرى مثل الانحدار اللوجيستي (المراجع). 
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العشوائي. لكن للقيام بذلك» ولدنا شجرة معقدة جدأء وهي الشجرة التي تكونت من 
6 تقسيما متفرقا. وسيسمح لنا «الغامب برو» بالنظر إلى الشجرة في مجملها في 
نافذة المُخرجء باستعمال المثلث الأحمر في الركن الأعلى جهة اليمين. اختر ABD‏ 
MOLL‏ «قم بعرض الشجرة». وإن أشجار التقسيم شفافة كلياء لذا من السهل 
جدأ فهم أي جزء من أجزاء الشجرة. ولكن هذا غير مرض؛ إذ ما نريده في الغالب. 
هو نوع من أنواع تجميع ما لما يخبرنا به نموذج ماء أي طريقة ما لاستيعاب نتائج 
النموذج في مجملهاء وليس هذا Wew‏ باعتبار شساعة الشجرة وتعقيدهاء النابعة من 
داخل بيانات واسعة. وعلى الرغم من كل هذاء من المهم تأكيد أن ما يجعل من 
أشجار التقسيم أشجارا تنبؤية للغاية» هي تلك الدقة والتعقيد الذين يجعلانها صعبة 
الفهم فهماً كاملاً. 


4 Receiver Operating Characteristic 4 Receiver Operating 
100 lee Se Characteristic on Validation Data 
0.80 . 0.90 - 
i 0.70 
ج‎ 060 
> : 
2 050 ج‎ 060 
© : 9 
ا‎ z 0.50 
l A 
030 : 040 
020 i 0.30 
010 1 | 0.20 ١ i 
0.00 0.10 0.20 030 040 050 060 0.70 080 090 0 ا‎ E. es es 
1 Specificity 0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 080 0.90 1.00 
thrice mamied Area 00 EAN 
70 0.7837 © thrice married Area 
71 0.7837 = Q 0.7774 | 


Sa] 0.7774 


الشكل رقم 6.10: منحنيات خاصية التشغيل المتلقي (ROC)‏ 
باعتباره قياس تناسب نموذج لشجرة التقسيم. 


تتمثل إحدى طرق فحص نتائج الأشجار» في فحص محتوى الأوراق نفسهاء 
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المثلث الأحمر). ويعرّف هذا التقرير كل ورقة عبر وضع قائمة بكل التقسيمات التي 
انخرطت في تشكيلها (والتي تشكل - في الجوهر - متغيرات تفاعل في غاية 
التعقيد)ء وتخبرنا OL‏ تجزئة الورقة حسب فئات النتيجة. مثلاء تحتوي ورقة ماء حيث 
يوجد أفراد متزوجون ثلاث وممثلون في نسبة من أعلى النسب» على أولئك الذين: 

© هم مواطنون أمي ركيون بالولادة. 

© هم غير جامعيين. 

© يبلغ عمرهم 50 سنة أو أكبر. 

© هم من عرق Fl)‏ وأميركيون أصليون أو بيض. 

© يقيمون في مقاطعة التعداد السكاني لوسط الجنوب الغربي (تكساسء لويزياناء 

(Lad pbs 

eel ey‏ من US‏ إن ورف Cae cle‏ عدو الزيجات Og SLE‏ يشكل 
افتراضي» تحتوي على أشخاص يوصفون: 

© بكون أعمارهم تتراوح ما بين 51-43. 

© بكونهم مواطنين أميركيين بالولادة. 

© بكونهم حاصلين على درجة الباكالوريوس فما فوق. 

© بكونهم يعيشون في إنجلترا الجديدة أو ولايات منتصف الأطلسي. 

© بكونهم ذكوراً. 

والشجرة الصغيرة قد تكون شجرة سهلة التدبير ذات عدد صغير من التقسيمات» 
فعالة جداً في مساعدتنا «الحصول» على الشجرة. ولكن لدى هذه الشجرة 116 ورقة 
منفصلة» بحيث تحدث كل واحدة منها العديد من التقسيمات. ومع ذلك» يمكن 
art‏ 5ل اوران ا اعدا على ادرا تجار ر glare‏ الشات 
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Validation Data in Red 


4 Column Contributions 
Number 
Term of Splits 042 
age 28 16662.6179 
educ_att 20 4604.48991 
REGION 30 4037.34654 
cit2 5 3668.12 
race2 12 1335.50306 E } 
female 15 438.205303 
HWSEI 7 318.263861 
INCTOT 2 51.3524418 





الشكل رقم 7.10: أهمية المتنبأ في نموذج شجرة التقسيم. 

ربما يكون المسلك الأفضل لفهم كيفية بناء الشجرة» هو النظر إلى ما يسميه 
«الغامب برو» مساهمات العمود (Column Contribution)‏ (مساهمات عمود 
المثلث الأحمر). ويولد هذا مخطط تقارن متغيرات المدخل حسب مقدار مساهمتها 
في جعل الأوراق أكثر تجانساً من عقدة الجذر (الشكل رقم 7.10)©. وفي لغة 
الشجرة» هذا مقدار مساهمتها فى تقليص الأنتروبىء التى تقاس عبر إحصاء G?‏ وإن 
المتغيرات التي استخدمت بشكل متكرر من قبل الشجرة لتقسيم البيانات» ستحصل 
إجمالاً على أعلى 6 Sy‏ هذا ليس کل ما يعنينا هنا Mel ape EN‏ الي 
أفرزت حصصا أكبر من البيانات» ستكون أهم بالنسبة إلى G?‏ من التقسيمات اللاحقة 
ولهذاء نلاحظ في الشكل» أن متغير المنطقة اميل pl‏ وشو اينات 
أكثر من متغير التحصيل العلمي )20 مقابل 30)» ولكن للتحصيل العلمي قيمة G?‏ 
sadel‏ وهذا راجع إلى كون العديد من التقسيمات السابقة الاک تبت قال استعملت 
بالتوسل بالتحصيل العلمي» كما «تفسر CAST‏ ما يفرق متعددي الزيجات عن غيرهم 
من الأفراد الذين لم يتزوجوا بالمرة. 


(2) إن المتغيرات التي تظهر في الشكل تشير إلى العمرء والتحصيل العلمي (Educatt)‏ والتعداد (المنطقة)» 
والمواطنة/ لأصل (612). والعرق/ الإثنية (عرق 2( والجنوسة COU)‏ والمكانة المهنية (HWSET)‏ 
وإجمالي الدخل الفردي INCTOT)‏ 


د 


إذن بم تخبرنا الشجرة بشأن ما يفرق متعددي الزيجات عن باقي اللأشخاص 
oll‏ وخر ؟ ارلا polio pb May‏ خاضةه إن الس فكل لهت COW‏ الاه 
الأكثر أهمية» بحيث يستعمل للقيام ب 28 قسمة منفصلة» والعديد منها يحدث في 
مرحلة مبكرة في الشجرة. kab‏ نحن نعلم أن هذا يتعلق ببساطة بالعرض - 
الأشخاص الذين عمروا لمدة أطولء كانوا «عرضة لخطر» الزواج لمدة أطول» ومن 
ثم وجود احتمال أكبر كي يتزوجوا مرات متعددة. إننا بطبيعة الحال» نفترض أن 
معظم التقسيمات التي تشمل العمرء تفرز مزيدا من متعددي الزيجات في الفريق 
الأكبر سناً. ويمكن التأكد من هذا من خلال الانتقال عبر الشجرة بكاملهاء وفحص 
كل هذه التقسيمات. كما نرى أيضاً قيام التحصيل العلمي بمساهمة مهمة» بحيث 
تخبرنا نظرة ما إلى تفاصيل الشجرة» عن أن أولئك الذين لهم تحصيل علمي أعلى. 
هم أقل احتمالاً بكثير فيما بخص زواجهم مرات متعددة؛ وهو pl‏ مفهوم باعتبار ميل 
ذوي التعليم العالي إلى الزواج في فترة Bebe‏ ويواجهون خطر الطلاق بنسبة أقل. 
ونرى بعد US‏ استخدام تلك المنطقة من البلاد في الكثير من التقسيمات. إن الزواج 
المتعدد أكثر شيوعاً في مناطق الجنوب والجنوب الغربي منه في أماكن مثل إنجلترا 
الجديدة والساحل الشرقي (على الرغم من الصورة النمطية عن أن كاليفورنيا هي 
Of hal, (Grub! drole‏ حدر Abt gall yo pode:‏ والمر AS‏ فقون هرات 
عديدة. ولكن في أغلب هذه التقسيمات» نجد من غير المرجح وجود ذلك بين 
المواليد اللأجانب خاصة من هو متعدد الزيجات. 


ولكن للأسف. إن اتجاه العلاقة بين متغير مهم والنتيجة» لا يعبر عنه بشكل 
ميسّرء على الرغم من إمكانية إنتاج خلاصة عن المتغيرات المهمة في بناء الشجرة. 
ولن تبعد الأشجار أي شيء واضح جدا كمعامل انحدار للتعبير عن القوة ومنحى 
علاقة معينة. وليس هذا ببساطة ما تجيده الأشجار تحديدا؛ إن كنت Large‏ بالعلاقات 
المتوسطة, فإننا نقترح عودتك إلى النماذج المجربة والصحيحة لوحدة الاحتمالية 
والخوارزمية. وإن أفضل ما يمكنك القيام به حقاً في شجرة ماء هو ما نقوم به أعلاه: 
ولاحظ المتغيرات المهمة» ثم افحص الشجرة وقدم تقريراً عن ما حدث في أغلب 
التقسيمات التي تشركها. 
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خلاصة 


إن أشجار التقسيم أدوات قوية للتصنيف والتنبؤ. وقد تم تذييلها بشفافية نتائجها 
وسهولة فهم خوارزميتها الأساسية؛ فهي كثيفة من حيث الحوسبة» ولكن ليست 
معقدة خاصة. وفى الحقيقة. إنها تعمل بأداء الكثير من الحسابات البسيطة نسبياً؛ إذ 
دوسم بسهولة التو ظيف› والاستخدام مع إجراءات الصلاحية المتبادلة. علاوة على 
ذلك» تستطيع أن تخبرنا عن المتغيرات الأكثر أهمية في تنبؤات التوليد. وإن نقطة 
ضعفها هو أنها لا تخبرنا بدقة عن مدى أهمية متغير ما. 

وتستخدم الأشجار بشكل واسع» وهي شعبية» ووفرت عدداً من المتغيرات 
الأكثر تعقيداً. وأسفله» نفحص اثنتين من هذين «الأشجار - العليا»: الأشجار 
المعززة. والغابات العشوائية. 

الأشحار المعززة والغابات العشوائية 

لنقل إنك تظن أن * شج Ald‏ لتقسيم» طريقة مثيرة للاهتمام من خلال طرق النظر 
إلى تصنيف البيانات. ولكن هذا عمل بسيط جدا. أليس هناك من طريقة تمكننا من 
أخذ قوى طريقة التقسيم» ولكن قم بتكثيفها كي نستغل بشكل حقيقي» قدرة الحاسوب 
على استخراج أعداد هائلة من الحسابات؟ إذا أحسست بهذه الطريقة» فإن الإحصائيين 
قد طوروا جوابا عن دعواتك» وفي الواقع» طوروا العديد منهاء غير أننا سنركز هنا 
على اثنتين منها: الأشجار المعززة» والغابات العشوائية. ويمكن أن نتصور كلاهما 
باعتبارهما أشجار تقسيم على الستيرويدز (Steroids)‏ معززة من حيث التعقيد 

الأشحار المعززة 

تستخدم الشجرة المعززة عدداً من أشجار أصغرء للتعلم من أخطاء تصنيف 
سابق» وبناء نموذج أكثر Bo‏ - وذلك ما نأمله. أولاء تنشأ شجرة واحدة بعدد صغير 
محدد سلفاً من التقسيمات. ثم تحسب احتمالا متنبئاً به» وبقايا لكل حالة في مجموع 
ob‏ ويعاد بر جيح الحالاات حسب هذه البقاياء بحيث تتلقى الحالاات المصنفة 
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.((Boosting) التعزيز‎ 


حدم 





Gradient-Boosted Trees Specification 


Number of Layers: 
Splits Per Tree: 
Learning Rate: 


Overfit Penalty: 0.0001 


Minimum Size Split: 


Early Stopping 
Multiple Fits over splits and learning rate: 


Max Splits Per Tree 


الشكل رقم 8.10: منصة الشجرة المعززة في «الغامب برو). 


وتنشأً بعدهاء شجرة صغيرة أخرى باستخدام هذه الحالات التي أعيد ترجيحهاء 
ويعاد الإجراء مرات معينة عديدة إلى أن يتم توليد نموذج نهائي. والأشجار المعززة 
هي إذن نماذج تكرارية قادرة - نظريا - على التعلم من الأخطاء وعلى أن تصبح 
تدريجيا أكثر دقة مع الوقت. 


ولتشغيل شجرة معززة في «الغامب»» افتح منصة إطلاق التقسيم (حلل تقسيم 
النمذجة). وبالقرب من الركن الأسفل على اليمين من هذه النافذة» انقر (Ady bod‏ 
وانتقي «الشجرة المعززة». وبعد ذلك» قم بتوطين ما تبقى من النافذة» كما قد تقوم 


PA pe 


بالشيء نفسه مع شجرة التقسيم» ثم انقر «موافق» liag (OK)‏ من شأنه فتح منصة 
إطلاق الشجرة المعززة (الشكل رقم 8.10(« os‏ ستمكن المستخدم من TES‏ 
عملية التعزيز. 

أولاً: نقوم باختيار عدد الطبقات belay. (Layers)‏ هو عدد الأشجار التي ستكون 
من البرنامج فرصا أكثر للتعلم والتحسن» ومن ثم سينتج نموذجا أكثر دقة. وفي 
سيأخذه تشغيل البرنامج. أما بالنسبة إلى مجموعات البيانات الضخمة مثل الذي 
نستخدمهاء فيمكن أن تنتج عدداً طويلاً من التشغيل» وقد ينهار البرنامج بسهولة إذا 
لم يكن للحاسوب ذاكرة وصول عشوائية (RAM)‏ كافية. 

انا ار ote‏ مات كز Bred‏ على عل وزد دمن الشات تن 
أي شجرة» إلى أن تصير أكثر دقة» بما أنها ستولد lade‏ نهائية أصغر وأكثر دقة. (تذكر 
أن الشجرة التي تمت مناقشتها سابقاء استعملت 116 تقسيماًء ولم تفرط في التناسب). 
O oe Shc ee lay‏ كيهو شی eal‏ وجو لكي كمااسيق أن 
ذكرناء إن مزيداً من الانقسامات يزيد أضعافاً مضاعفة من عدد الحسابات التي يحتاج 
الحاسوب إلى إنجازهاء كما يمكن أيضا أن يزيد من مقدار الوقت المطلوب. 

وبعد ذلك» نحدد معدل التعلم (Learning Rate)‏ الذي يتراوح ما بين 0 و1. 
بحيث تضمر القيم العليا حاجة البرنامج إلى مزيد من الثقة في استنتاجاته الأولية 
بينما المعدلات المنخفضة يرسخ مزيدا من الحذر. وهكذاء إن المعدل العالي للتعلم 
يسرع من الحسابات المعنية» ولكن على حساب الإفراط في التناسب» في حين تبطئ 
المعدلات المنخفضة التقارب» 5 Ol‏ كانت تنتج 435 25 

لان AG Ss Oya cba) oul‏ كوه DIS‏ 3 ااي ف و 
الشجرة المعززة «للغامب MG yp‏ وتضمن عقوية الإفراط فى التناسب» عدم وجود 
الحالات ذات احتمالات منبأة مساوية للصفر. وستنتج القيم العليا إفراطاً أقل في 
التناسب. ويمكن للباحثين أيضاً تحديد الحجم الأدنى من الانقسام» مما سيمنع 
البرنامج من تقسيم أي عقدة تكون أدنى من عدد محدد من الحالات التي توجد فيها. 
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ففي مجموعات بيانات ضخمة» من قبيل تلك التي نحن بصدد استعمالهاء (ومن غير 
المرجح استعمالها)» ولكن يمكن أن تكون مهمة جداً في مجموعات بيانات صغيرة. 

أما الخياران الأخيران - وهما إما مشغلان أو موقوفا التشغيل - فيسميان 
«التوقيف (Early Stopping) (S.J!‏ و«متعدد التناسب على التقسيمات ومعدل 
التعلم» Multiple Fits Over Splits and Learning Rate)‏ وإن التوقيف المبكر 
- هذا إذا ما تم تفعيله - يعطي الإشارة إلى البرنامج بتوقيف عملية التعزيز الإضافية 
في حال فشل مزيد من التعزيز لتحسين التناسب على مستوى بيانات الصلاحية. وأما 
«متعدد التناسب على التقسيمات ومعدل التعلم»» فيعطي الإشارة للبرنامج من أجل 
بناء شجرة معززة منفصلة لكل مزج ممكن من التقسيمات ومعدلات التعلم المحددة 
من قبل الباحث. (ويتم تعيين الحدود الأكثر انخفاضا من هذه الكميات في خانات 
التقسيمات ومعدلات التعلم التي سبق وصفهاء في حين يتم تعيين الحدود العليا 
تحتف el GE‏ في حقلي «الحد الأقصى من التقسيمات لكل شجرة» و«الحد 
الأقصى من معدل التعلم»). وهذا يسمح لبرنامج الشجرة المعززة من تجريب 
التمازجات المختلفة لهذه المَغلمات من أجل العثور على مزيج يعظم التناسب. وإن 
عملية تشغيله تزيد من فرص العثور على «النموذج الأفضل» «(Best Model)‏ ولكنها 
تزيد من وقت التشغيل بشكل ملحوظ. 

ودعماً لتحليلناء نختار إنشاء شجرة من 100 طبقة (ضعف القيمة الافتراضية). 
ونقوم باستخدام التوقيف المبكرء ولكن حددنا أيضاً القيم الدنيا والقصوى لكل من 
التتسهانة بحسب كل ةوعدل التعلم» وسمحنا «للغامب برو» باختيار قيم 
هذه المَغلمات التي عملت بشكل أفضل في تصنيف الحالات بشكل صحيح في 
مجموعة الصلاحية. ووا ات ا Sigs‏ إلى ايها تراوح معدل 
التعلم من 0.1 إلى 0.5. وعلى عكس شجرة التقسيم التي أعطت النتائج على الفور. 
استغرق برنامج الشجرة المعززة بهذه المواصفات حوالي ثمانية دقائق للانتهاء 
وذلك غالباً بسبب أننا طلبنا من البرنامج إنشاء عدة أشجار معززة بشكل منفصل. 

يبين الشكل رقم 9.10 نتائح الأشجار الثمانية عشر كلها التي أنشأناها في 
مختلف إعدادات التقسيمات ومعدل التعلم. وقد تم إنتاج الطبقات ال 100 المحددة 
كلها للأشجار المعززة ما عدا الشجرتين الأخيرتين؛ بحيث تم اشتغال التوقيف 
LIL Sao‏ البهماء OY‏ إضافة مريك من الطيقات كان سودق إلى تاس مني 
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وانتهى الروتين باختيار نموذج شجرة معززة ذات عدد منخفض نسبياً من التقسيمات 
لكل شجرة )5( ومعدل عال نسبياً من التعلم (0.4). وبالنظر إلى توقف الشجرة 
المعززة عن إضافة الطبقات في الحد الأقصى المحدد لدينا (حتى بالنسبة إلى شجرتنا 
الما كانت هناك اجتمالبة تخسن CL‏ أكثر فللا لر فا Aydt‏ مويك من 


الطبقات. 


SAS SAS 


التقسيمات الطبقات التعلم الأنتروبيا 


100 3 


100 4 


100 5 


100 6 


100 8 


100 10 


100 3 


100 4 


100 5 


100 6 


100 8 


خلاصات تحديد صلاحية النموذج 
كان التناسب sal‏ الأفضل من بين نماذج التناسب 


معدل جذرمربع معدل 


0.1 


0.1 


0.1 


0.1 


0.1 


0.1 


0.2 


0.2 


0.2 


0.2 


0.2 


0.1876 


0.1896 


0.1941 


0.1941 


0200.2 


0.2029 


0.1956 


0.2010 


0.2044 


0.2031 


0.2019 


on 

التصنيف 
0.2946 
0.2960 
0.2908 
0.2919 
0.2886 
0.2873 

0.2931 

0.2878 
0.2860 
0.2856 


0.2878 
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متو سط متو سط متوسط 


خوارزمية خطأ جذر 


P 


0.5513 


0.5507 


0.5474 


0.5473 


0.5420 


0.5419 


0.5466 


0.5423 


0.5404 


0.5410 


0.5426 


متوسط 
المربعات 


0.4339 
0.4340 
0.4321 
0.4322 
0.4297 
0.4296 
0.4321 
0.4298 
0.4290 
0.4293 


0.4299 


غياب 


الخطا 


0.3703 0.4295 0.5420 0.2875 0.2033 0.2 100 10 
0.3696 0.4292 0.5416 0.2877 0.2017 0.4 100 3 
0.3686 0.4284 0.5391 0.2849 0.2065 0.4 100 4 
0.3677 0.4282 0.5389 0.2844 0.2069 0.4 100 5 
0.3679 0.4287 0.5404 0.2853 0.2052 0.4 100 6 
0.3676 0.4286 0.5399 0.2865 0.2047 0.4 89 8 
0.3671 0.4286 0.5405 0.2860 0.2050 0.4 71 10 


الجدول رقم 9.10: إحصائيات التناسب بالنسبة إلى أشجار معززة متعددة في 


لب 


«الغامب gy‏ 
إن المخرج الناتج عن شجرة معززة (الشكل رقم 10.10( شبيه بشكل كبير 


بمخرج شجرة تقسيم «منتظمة». وإن الفرق الأساسي. هو أن مخطط الصلاحية 
التراكمية» تنين مقابيس متعددة لاسب وترسمها ليس فى مقابل العدد pest‏ 
للتقسيمات» وإنما مقابل العدد التراكمي للطبقات أو ا اش Coe‏ 
ملاحظة تحسن أولي سريع في التنبؤ» المنجز من قبل أشجار أولى» وتليها فترة طويلة 
من تقدم أكثر tly‏ وثابتاً. وبعد الأشجار المعززة» يمكن لمساهمات العمود. 
ومنحنيات خاصية التشغيل المتلقي» ومنحنيات الرفع اذكو له Lal‏ جو انا قار 
الورقةء فغير متاحة. 

يبين لنا مساهمات العمود (الشكل رقم 11.10) مدى أهمية كل مُدخل بالنسبة 
إلى عملية التصنيف. وبما أن هذه الشجرة مختلفة عن شجرة التقسيم المعيارية - بما 
أنه تم إنشاء عدد كبير من طبقات الشجرة» كل بحسب بقايا سابقاتها - هناك احتمال 
أن تكون المساهمة النسبية للمدخلات مختلفة عما رأيناه سابقا. وبالفعل» هذا هو 
الأمر الواقع. إننا نرى أن مدخل العرق هو الآن أكثر أهمية من مدخل المنطقة» على 
الرغم من أن المدخلين العاليين في شجرة التقسيم (العمرء والتحصيل العلمي) 
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ببقيان tell‏ لين الأعليين Lee‏ واستقلت المكاتة المهنية :الس بالكاد cals‏ دور قن 
السابق على الاطلاق - فى الغالب من أجل خلق التقسيمات. وتراجعت مساهمات 
dbl pol‏ ومكان الولادة المتعلقة بمدخلات أخرى. 


ويمكن أيضاً «الغامب برو الباحثين من معاينة الطبقات الفردية. وبحكم صغر 
حجم كل طبقة» فسيكون من الممكن معاينتها برمتها بسهولة. ومن الممكن أن تظهر 
الأشجار بدرجات مختلفة من التفاصيل. ولمعرفة أكبر قدرا من المعلومات كما هو 
مبين في الشكلين رقم 12.10 و13.10.» انقر المثلث الأحمر» أظهر الأشجار» أظهر 


& 
؛ المئات.‎ slaa الا‎ 
4 Overall Statistics ail a: 
Measure Training Validation Definition 
Entropy RSquare 0.2108 0.2069 1-Loglike(model)/Loglike(0) 
Generalized RSquare 0.3353 0.3299 (1-(L(0)/L(model))*(2/n))/(1-L(0)*(2/n)) 
Mean -Log p 0.5361 0.5389 3 -Log(pfj})/n 
RMSE 0.4273 0.4282 ¥ S(y{j]-pii})*/n 
Mean Abs Dev 0.3676 0.3677 > 0م -[زالا|‎ 
Misclassification Rate 0.2838 0.2844 3 (pij]#pMax)/n 
N 114348 6251 0 
4 Confusion Matrix د‎ | bees 
Actual . _ Predicted Actual Predicted 
| Training 0 1 | Validation 0 1 
0 49062 17583 0 24182 8580 | 
11 14874 32829| 1 7420 16069 
á Cumulative Validation 
1.00 --- 
Rsquare 
Avg -Log p 
0.75- RMS Error 
Avg Abs Error 
١ MR 


RSquare Validation 
f=) 
5 


0 20 40 60 80 100 
Number of Layers 


الشكل رقم 10.10: مخرج الشحرة المعززة فى «الغامب (gy‏ 
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وقد اخترنا هنا عشوائياً طبقتين (طبقة 8 وطبقة 63( لأغراض توضيحية. وإن 
إظهار الطبقات ال 100 كاملةء لن يكون عملياً. وتقوم هاتان الشجرتان بقرارات 
تقسيم مختلفة Liles‏ بحيث تستخدم الأولى في التحصيل العلمي» والعمرء والمكانة 
المهنية» في حين تستخدم الثانية في العمرء والدخل» ووضع المواطنة. 





الشكل رقم 11.10: أهمية المتنباً الناتج عن نموذج شجرة معززة. 
غابات عشوائية 


تستخدم غابة عشوائية (Random Forests)‏ ما (أو غابة النظام التمهيدي 
((Bootstrap Forest)‏ تقنية يمكن من WE‏ توليد عدد لا متناهي من العينات 
العشوائية» انطلاقا من مجموعات بيانات متناهية؛ فنظام التمهيد كثيف حوسبياء نقوم 
بمعاينة بياناتنا بالاستبدال liag) (Replacement)‏ مفتاح)» ومن ثم القيام بتوليد 
مجموعات البيانات المنفصلة المولدة عشوائياً بقدر ما نحتاج إليه. وبما أن تجميع 
البيانات الأولية الذي تم عشوائياً BUI‏ من السكان - ومن خلال إعادة معاينة هذه 
العينة» فإنه «كما لو ننا نعيد عينة السكان - مع التحذير (القوي) من أن الحالات غير 
المدرجة في العينة الآولية» لا آمل لها في الانضمام إلى أي من العينات التي أعيد 
تشكيلها من النظام التمهيد (بينما لدى تلك التي كانت مدرجة في الأول الاحتمالات 
نفسها كي تكون مدرجة أو تكون غير ذلك» المعاينات التي تمت إعادة تشكيلها). 
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هكذاء إن النظام التمهيدي يمكن المحللين الإحصائيين من احتواء - على الأقل 
حرفا عمشكلة و جرد عة و اة ty Lette‏ معان (المعروق اشا Soll:‏ 5( 
الإحصاء النظري إعادة معينة متكررة. من أجل هذاء كثيراً ما تستعمل باعتبارها طريقة 
مبدعة للحصول على elas!‏ معيارية أكثر «قوة» (Robust)‏ 

وتستخدم الغابات العشوائية النظام التمهيدي من أجل إنشاء عدد كبير من 
الأشجار المنفصلة (ومن هنا جاء مصطلح الغابة)» JS‏ واحدة منها يتم على مستوى 
قسم مختلف من البيانات» المختار عشوائياً (مختار بطبيعة الحال» بالاستبدال). 
وعلاوة على ذلك» تقوم الغابات بمعاينة قسم من متغيرات المتنبئ» المستخدمة في 
تولك Ole‏ ف شير ةنا : gay‏ هذا أن 5 ob Sue otis‏ مقتلفة إلى 
حدّ كبير. وبعد clia‏ سيتم جمع JS‏ الأشجارء واستخراج معدلاتها. والغاية من ذلك 
شبيهة بغاية الصلاحية المتبادلة: تقليص إمكانية الإفراط فى التناسب» والزيادة فن 


ولتشغيل غابة نظام التمهيد. قم بفتح نافذة إطلاق التقسيم مثلما تم في السابق. 
«موافق» (OK)‏ تفتتح منصة إطلاق غابة نظام التمهيد (الشكل رقم 14.10)» لتسمح 
GUL‏ تعديل المَعلمات. 

أولاً: نختار عدد الأشجار التي سوف يتم إنشاؤها لتوليد الغابة. وكما قد تتوقع. 
سيزيد فى المقابل من وقت التشغيل أيضا. 

وباستطاعتنا oY‏ تعديل OLS‏ التى تحدد معدلات معاينة الحالات 
والمتغيرات (أو إن شئتم الأعمدة والصفوف). ونحدد ste) NGI‏ المصطلحات 
المعينة لكل انقسام». ويشير هذا إلى عدد المتغيرات المستقلة التي تستخدم في كل 
شجرة. وتقوم غابة نظام التمهيد بمعاينة المتغيرات المستقلة وكذا الحالات ب بقة 
عشوائية» (أو إن شئت» تقوم بمعاينة JS‏ من الصفوف وأعمدة مصفوفة البيانات). 
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وإن استخدام مزيد من الأعمدة» يسمح لكل شجرة OL‏ تكون أكثر digas‏ ولكن 
للضرورة» ستكون أكثر تطابقاًء متخلية بذلك عن بعض المزايا من مزايا إنشاء عدد 
كبير من الأشجار المختلفة وإيجاد متوسط لها. وبعد ذلك» نحدد «معدل عينة نظام 
التمهيد». ويشير هذا إلى حجم نموذج النظام التمهيدي المراد إنشاؤه من البيانات 
Lots Ghat’)‏ ال do‏ 


papa او‎ 


All ama 





“Some college, no ale HS or GED 


45 
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<37 
Vv 
i 
ل‎ 
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| morethan BA, Associate's Degree, Less than HS, Bachelor's Degree 
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الشكل رقم 112.10 طبقة واحدة من شجرة معززة. 


مع البيانات الأصلية. هذا الرقم لا يشير الآن إلى نسبة البيانات المستخدمة في نموذج 
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نظام التمهيد, LY‏ نقوم بالمعاينة بالاستبدال» ومن ثم يكون من المرجح بالنسبة إلى 
بعض الحالات أن يتم انتقاؤها أكثر من مرة. ويمكن لهذا العدد أن يكون أكبر من 
cla gas g . 0‏ ستؤدي العينات الكبيرة إلى مزيد من الدقة» ولكن أيضاً إلى الزيادة فى 


5 Lacs) ved | قفنت‎ 


4 Layer3 
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الشكل رقم 13.10: طبقة أخرى من شجرة معززة. 


وإن «الحد الأدنى من التقسيمات (Minimum Splits Per Tree) (3 > js‏ 
و«الحد الأدنى من حجم التقسيم) (Minimum Size Split)‏ هما بالضبط ما يظهران: 
المفرطة» والإفراط في التناسب على التوالي. وكما هو الحال مع الأشجار المعززة» 
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إن «التوقيف المبكر»» يعطي الإشارة للبرنامج من أجل التوقف عن توليد مزيد من 
الأشجارء إذا لم تحسن الأشجار الإضافية من صلاحية التناسب. وأخيرأء ستقوم 
«التناسبات المتعددة على مستوى عدد من المتغيرات» - إن تم التحقق منها - بإنشاء 
غابة (Separate Forest) thea.‏ لقيم متنوعة لعدد من المتغيرات» بدء (بعدد 
المتغيرات التي تمت معاينتها لکل تقسيم)» NE‏ بالعدد الذي 3 إدخاله في «الحد 
الأقصى لعدد المتغيرات». ويسمح هذا الخيار بمزيد من النمذجة الشاملة» ولكن 
يزيد من وقت التشغيل بشكل كبير. 
B Bootstrap Forest Be ER‏ 


Bootstrap Forest Specification 






Number of rows: 170599 


Number of terms: 8 











Number of trees in the forest 
Number of terms sampled per split: 
Bootstrap sample rate: 
Minimum Splits Per Tree: 


Maximum Splits Per Tree 








Minimum Size Split: 


Early Stopping 
Multiple Fits over number of terms: 


Max Number of terms: 





الشكل رقم 14.10: منصة إطلاق غابة نظام التمهيد («البوتسراب») في 
«الغامب برو». 
لقد قمنا بإنشاء غابة من 100 شجرة منفصلة (ضعف القيمة الافتراضية)» واخترنا 
معدل معاينة نظام التمهيد من 10./. وتحققنا من «التناسبات المتعددة على مستوى 
عدد من المتغيرات»» وسمحنا لعدد من | لمتغيرات لتتراوح تبايناتها ما بين 2 و5» مما 
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أفضى إلى أن ينتج البرنامج أربع SLE‏ منفصلة مكونة من 100 شجرة لكل واحدة 

(الشكل رقم 15.10). وبسبب هذا الاختيار الأخيرء استغرق البرنامج أربع دقائق 
e wg 1‏ 

للتنفيذ. واستقرت على خمس متغيرات لكل شجرة كعدد مثالى. ومرة أخرىء لاحظ 

أن الغابة في هذه القيمة المثالية» لا تحتوي إلا على 29 شجرة. مما يعني أن التوقيف 

المبكر كان شغالاً. ومع ذلك» من الممكن أن تكون معاينة مزيد من المتغيرات قد 


حسنت من تناسب النموذج. 
خلاصات تحديد صلاحية النموذج 


كان التناسب أدناه الأفضل من بين نماذج التناسب 


عدد عدد جذر مربع معدل سوء متوسط متوسط متوسط 
المتغيرات الأشجار الأنتروبيا التصنيف خوارزمية خطأجذر2 غياب 
p‏ متو سط الخطأ 
المربعات 

0.4123 0.4420 0.5725 0.3019 0.1579 36 2 
0.3989 0.4373 0.5612 0.3001 0.1739 100 3 
0.3905 0.4357 0.5565 0.3014 0.1813 43 4 
0.3883 0.4349 0.5549 0.2986 0.1830 29 5 





الشكل رقم 15.10: أمثلة نموذج غابة عشوائية في «الغامب برو» من خلال اختيار 
عدد المتغيرات المعاينة. 
لقد تم وصف إحصاءات التناسب ومخرج آخر ذي صلة من الغابة العشوائية في 
«الغامب»» في الشكل رقم 16.10. وسوف ينتج «الغامب» تلقائيا إحصاءات شاملة 
للتناسب» ورسم بياني تراكمي للصلاحية ممائل لتلك التي تم إنتاجها بشجرة معززة 
(باستثناء رسم المحور × لعدد الأشجار في الغابة بدلا من عدد الطبقات في الشجرة). 
ومصفوفة الارتباك. وسوف تنتج أيضاً إحصائيات JS‏ شجرة على حدة. 


ومن خلال استخدام المثلث الأحمر في الجانب الأيسر العلوي لنافذة المخرج 
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٠ + ae 5 2 2 A g A š “6 59 3 ٠ 
الكامل (غير معروض)» يمكننا رؤية (عرض شجرة صغيرة» لكل شجرة فردية في‎ 
عقل عساهنات‎ Byte الحصول. على معلوهات:‎ Lat الياتات. وسكا‎ de pares 
العمود ومنحنيات خاصية التشغيل المتلقي» ومنحنيات الرفع. كما يمكن توليد‎ 


الاحتمالات المتنباة. 
Overall Statistics‏ 4 
Measure Training Validation Definition‏ 
Entropy RSquare 0.1812 0.1830 1-Loglike(model)/Loglike(0)‏ 
Generalized RSquare 0.2937 0.2963 (1-(L(0)/L(model))*(2/n))/(1-L(0)*(2/n))‏ 
Mean -Log p 0.5564 0.5549 3 -Log(p{j])/n‏ 
RMSE 0.4359 0.4349 v x(yljl-p)*/n‏ 
1|/0ام-[زالاا 2 0.3883 0.3892 Mean Abs Dev‏ 
Misclassification Rate 0.3016 0.2986 > 0‏ 
N 113982 56617 n‏ 
Confusion Matrix‏ 4 
Actual Predicted Actual __ Predicted‏ 
Training O 1 Validation e ai‏ | 
8174 24838 0 ,16527 49868 0 | 
E! 8731 14874 |‏ | 29734 17853 2 | 
Cumulative Validation‏ 4 
5 ل سس 1.00 
Rsquare‏ | | 
م Avg -Log‏ | | 
RMS Error‏ | -0.75 
Avg Abs Error‏ | | 
MR‏ 


Validation Statistics 
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الشكل رقم 116.10 مخرج من غابة عشوائية في «الغامب Ag‏ 
وعند فحص مخطط الصلاحية التراكمية في الشكل رقم 616.10 يكون من 
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المهم الإشارة إلى أن إحصاءات التناسب التي لا تتحسن بشكل متطابق» بما أن الغابة 
العشوائية تنشأ مزيداً من الأشجار. وفي المقابلء يوضح مخطط الصلاحية التراكمية 
لبيان نموذج الشجرة المعززة تحسنا بدائيا سريعا في التناسب» متبوعا بتقدم دائم 
وبطيء. ويرجع هذا الاختلاف إلى الاختلاف فيما تقوم به هاتان الطريقتان في واقع 
الحال. ولقد صممت الأشجار المعززة للتعلم من الأخطاء السابقة» المؤدية إلى 
تناسب أكثر قرباً (لكن مع احتمالية الإفراط في التناسب). ومن جهة أخرى, تنشأ 
الغابات العشوائية أشجارا فردية بشكل متسلسل» لكن مستقلة عن بعضها بعضا. وما 
تقوم به إحدى الأشجار الفردية» هي وظيفة من وظائف المدخلات» والحالات التي 
gd E lp cad Gaby ly Lilie alc‏ لل انور شير 
مضمون على المدى القريب» على الرغم من أن إحصاءات الصلاحية تعرف تحسنا 
على المدى الطويل (بينما يتم إنشاء أكبر lae‏ من الأشجارء واستخراج متوسطاتها). 

إن إحصاءات مساهمة العمود (الشكل رقم 17.10( متشابهة جدأً - من حيث 
العلاقة - مع شجرة التقسيم الأولى. ومرة أخرىء يتم استغلال متغيرات العمرء 
والتحصيل العلمي» ومنطقة Ald‏ والأصل في معظم الأحيان لتقسيم البيانات. ومع 
ذلك لاحظ أن عدد الانقسامات التي تمت هناء ضخمة. وهذا راجع إلى أنه في 
إعدادات الغابة العشوائية» قمنا بوضع الحد الأدنى فقط لعدد الانقسامات التي يمكن 
للنموذج القيام بها بالنسبة إلى JS‏ شجرة على حدة» ولكن لا يتيح أي de‏ أقصى. 
ولذلك Ob‏ معظم الأشجار في هذه الغابة» هي أشجار جدا دقيقة» وذات انقسامات 
ite‏ لكل واحدة منها. 


من الإنصاف التساؤل - في هذه النقطة - عن متغير الشجرة الأفضل من حيث 
الأداء من أصل المتغيرات الثلاث. أما الأشجار المعززة والغابات العشوائية» فهى 
i 0 5 ٠ 0 55 5 a ٠‏ 
متغيرات على مستوى شجرة التقسيم» ولكن كل واحد منها كثيف ودقيق حوسبيا إلى 
أبعد الحدود. وهل ينجم عن هذا العمل الإضافي نتائح من حيث الدقة التنبؤية 
الزائدة؟ يقارن (الجدول رقم 1.10( هذه النماذج باستخدام مقاييس مخجلمة من 
التناسب» والجواب الذي يوفره هو نعم» حيث تتفوق JS‏ من الشجرة المعززة والغابة 
العشوائية في التصنيف خارج العينة. ولكن هل تحسنان النتائج بشكل كبير؟ هذا 
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يتوقف على قراركم. أما فيما يخصناء فنميل إلى الجواب الذي يعتمد على مدى 
أهمية أن تكون دقيقا بقدر الإمكان. وإذا كانت مشكلة تصنيفكم غير مؤثرة بصورة 
خاصة» ولكن لديكم كميات ضخمة من البيانات والمتغيرات لتنتج من خلالهاء فقد 
ترغب بالحفاظ على تلك الزيادة الهائلة من وقت التشغيل» وتقوم ببناء شجرة واحدة 
فقط. ولكن إذا كان لديك مشكلة شديدة التأثير (مثل الفرز بين الخلايا المسرطنة 
وغير المسرطنة)» فربما قد ترغب في انتظار فترة أطول قليلاً وتكون متأكداً أكثر. 


4 Column Contributions 
Number 
Term of Splits G^2 Portion 
age 195 410285.743 
educ_att 59 116084.475 
cit2 56 79917.7466 
REGION 130 78181.5372 
race2 73 43114.0089 
HWSEI 23 8712.87324 
INCTOT 9 3134.74896 
female 6 877.846166 





الشكل رقم 17.10: أهمية المتنبأ من نموذج غابة عشوائية. 


الجدول رقم 1.10: مقارنة أداء شجرة تقسيم» وشجرة معززة» وغابة عشوائية. 


fue a 


شجرة تقسيم شحرة معززة غابة عشوائية 


شبه -R?‏ «مكفادن) 0.189 0.2069 0.181 
توسط الخطأ التربيعى للجذ 
JOE exh E‏ 
(الصلاحية) 0.433 0.428 0.435 
معدل سوء التصنيف (التدريب) 0.288 0.283 0.301 
معدل سوء التصنيف (الصلاحية) 0.292 0.284 0.299 


ةعست بسر عاص ةادا 
ia ie 1‏ 0.778 0.783 0.752 
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التعينانية (Coppell‏ 0.653 0.688 0.625 
الحساسية (الصلاحية) 0.649 0.684 0.630 
الخ ص (La ytcll)‏ 0.753 0.736 0.751 
الخصوصية (الصلاحية) 0.750 0.738 0.752 


تسخر الأشجار المعززة والغابات العشوائية المنطق الأساسي للأشجار» ولكن 
تمزجها مع عمليات التعزيز والنظام التمهيدي في محاولة لتحسين دقة النموذج 
وتعميمه على العينات المستقلة. أما فيما يخص البيانات والإعدادات الصحيحة. 
فبإمكانها التفوق على والديها الذي هو شجرة التقسيم» ولكن لا تقم بذلك دائماً في 
تجربتنا. علاوة على HWS‏ تتنازل عن الكثير من امتياز شجرة التقسيم - شفافيتها - 
بواسطة زيادة التعقيد على نحو ملحوظة. وإن العمل الكبير الذي قد يستهلكه فحص 
كَل من العدد الهائل من الأشجار المنتجة من خلال التعزيز أو في الغابات» هو عمل 
هائل (على الرغم من أنه ليس مستحيلاً من حيث المبدأ). إنها نماذج AST‏ تنبؤا بشكل 
حصري من والديها - وليس بالشيء المفيد لفهم ما يجري في عملية التصنيف. 
ولكن إذا أربكت هذه الطرق محاولات التفسير» فإن ما سنناقشه لاحقاً سيكون أكثر 
صعوبة. وننتقل بعد ذلك إلى مناقشة طريقة «الصندوق الأسود» بامتيازء المتمثلة فى 
الشكة العصية. l‏ 
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الفصل Sola)‏ عشر 
الشبكات العصبية 


تعد الشبكات العصبية الاصطناعية (ANN) (Artificial Neural Networks)‏ 
(التي تعرف اختصارأء بالشبكات العصبية) أدوات تعليم آلي» تستلهم تقنياتها - كما 
يقترح ذلك اسمها - من عملية الأعصاب البيولوجية. وللحصول على مفهوم مجرد 
وعام للغايةء لكيفية اشتغال الشبكات العصبية» لندرس الاشتغال الأساسي لعصب 
(Neuron)‏ ما. إن لدى الأعصاب تفرعات خلوية (Dendrites)‏ تجمع معلومات 
مدخلة من أعصاب أخرى. وتدمج هذه المعلومات حتى إذا ما تم بلوغ عتبة ما 
(Fires) (123)‏ العصي. وبهذه الطريقة يمد العصب قنوات المعلومات لأعصاب 
أخرئ. غلاوة غلى ذلك» تملك شبكات الأعضات القدرة على التعلم (Learning)‏ 
استناداً إلى الأخطاء السابقة. 

إن الشبكات العصبية الاصطناعية تعمل على نحو مماثل» ذلك بأنها تجمع 
معلومات من مجموعة من المدخلات (Inputs)‏ (مجموعة بيانات ذات مجموعة 
معينة من متغيرات مُدخل مستقل). ويخصص JS‏ متغير مدخل» ترجيحاً عشوائياً. 
وبعد ذلك تجمع المعلومات من E‏ المتغيرات عبر الإجمال (Summation)‏ 
وتتحول إلى قيمة نتيجة ما بواسطة دالة لاخطية. ويمكن لمتغيرات المدخل والمخرج 
أن تكون مستمر cë‏ فئوية (Categorical)‏ أو ثنائية (Binary)‏ 


291 


ويظهر مثال من أمثلة الشبكة العصبية كالذي تم وصفه آنفاً في الشكل رقم 
1 لقد حددنا Led pas‏ من ثمانِ مدخلات» أو متغيرات مستقلة. وتدمج المعلومات 
من هذه المتغيرانت قى الذائرة Yaa USS ghd‏ يقلبه شكل 
Shes) (Siisethed-S Shape) S‏ دالة الظل الزائدية (Hyperbolic Tangent‏ 
«(Function)‏ وتستخدم في تنبو متغير المدخل . 


وسيساعدنا هذا على تقديم بعض مصطلحات الشبكة العصبية. والمستطيلات 
الثمانية الموجودة على اليسار هى عقّد المدخلات (Input Nodes)‏ أو طبقة المدخل 
(Input Layer)‏ للشبكة العصبية التى تقدّر المعلومات» وتلخصهاء وتحولها انطلاقاً 
من المدخلات. وأخيرا يشير المستطيل على اليمين إلى طبقة ll‏ ج (Output‏ 
Layer)‏ التى تمثل Slax‏ المتها doe tld‏ 








الشكل رقم 1.11: شبكة عصبية بسيطة (صورة مأخوذة من «الغامب برو»). 

إن هذه شبكة عصبية بسيطة» تعد - بشكل تام تقريباً - انحداراً لوجيستياً. 
cle gots‏ تسشن GIRS‏ العصيية الأتسدار اللوجسفي س خلال إقبافة Jains!‏ 
عبر عقد خفية متعددة. وتظهر شبكة عصبية أكثر نموذجية في الشكل رقم DLL‏ 


Paes 


بحيث تتألف الطبقة الخفية الآن من أربع عقد خفية. وكل متغير في مدخل الطبقة 
مرتبط - بشكل مستقل - بعقدة خفية» إذ ترتبط بدورها باستجابة المتغير. 


ولفهم سبب أهميتهاء دعنا ندرس فعل الشبكة العصبية عندما تمرر المعلومات 
من المدخلات إلى عقدة خفية وحيدة. وتمثل |S‏ عقدة متغيراً وحيدأء له مجموعة 
محددة لقيم توزيع معين (ثنائي الحدود (Binomial)‏ وعادي» وهكذا). وبينما يمرر 
كل متغير معلوماته للعقدة الخفية» يتم تخصيص وزن cal‏ مماثل لمعامل انحدار. 
وبعد ذلك» تضاف قيم الترجيح (Weighted Values)‏ بمفردها إلى جانب متغير 
(اعتراض) وتتحول النتيجة عبر دالة محددة. وينتج هذا قيمة مُخرجة. 


والمهم هنا الذي يجب توضيحه وهو أن الترجيحات المشار إليها آنفأ اختيرت 
بشكل عشوائي (Randomly Chosen)‏ من قبل منصة (Platform)‏ الشبكة العصبية. 
ويتم تعديلها - بعد ذلك - مراراً وتكرارأء كلما تطور النموذج عبر البيانات لتصحيح 
أخطاء التنبو. وتحدث العملية نفسها في کل عقدة خفية ‘(Each Hidden Node)‏ 
أي فى كل عقدة. تطَبّق ترجيحات مختلفة» منتقاة Lil pte‏ على كل متغير» وتُعدّل 
بعد ذلك بشكل متكرر. وهكذا فعدد القيم المتنبأة للمتغير التابع» المولّد في JS‏ طبقة 
خفية» يساوي عدد العقد الخفية في تلك الطبقة. وتخصص أيضاً لهذه القيم المتنبأة 
ترجيحاً lal pte‏ كما أن هذه القيم المرجحة معدلة أيضاً بشكل متكرر» وممزوجة 
لإنتاج احتمال متنباً للنتيجة. 

ومن الممكن - إضافة إلى ذلك - حيازة أكثر من طبقة خفية. ويسمح «الغامب» 
ببناء نماذج من طبقتين خفيتين» ويجمع الخبراء L pas‏ على أن معظم المشاكل ذات 
طبقات خفية» تعد كافية. وتستخدم الطبقة الثانية ببساطة» الطبقة الخفية الأولى 
باعتبارها طبقة مدخل» كما تنجز عملية الترجيح والنمذجة والتحول نفسهاء بالتزامن 
مع أداء الطبقة الخفية الأولى لمدخلاتها. 


وتتطلب عملية التصحيح الترجيحية والمكررة قليلاً من التطويرء وتذكر أن 
الترجيحات المخصصة فى كل عقدة خفية تشبه معاملات الانحدار. وفى الحقيقة 


تمت إضافة متغير اعتراض (Intercept)‏ أيضاء ولهذاء فمن الدقة بمكان. التفكير فى 
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كل عقدة باعتبارها تؤدي بالأساس انحداراً لا خطياً. وتختار الشبكات العصبية 
معاملات انحدار على نحو أكثر WLS‏ للغاية للانحدار اللوجيستيء الذي يستخدم 
ph‏ احتمال أقصى (Maximum Likelihood Estimation)‏ من انحدار المربعات 
الصغرى العادية. ومثلها مثل الاحتمال الأقصى. Ja‏ الصيغة العصبية من «تخمين» 
مختار عشوائياً في أفضل القيم وتعدل نفسها بعد ذلك. 


wg 


ومع ذلك وخلافاً للانحدار اللوجيستي» فإنها لا تقوم بهذا مستخدمة كل 
البيانات» بل تستخدم ترصدا بترصد. وبهذه الطريقة» تكون الشبكة العصبية قادرة 
على التعلم من «الأخطاء» التنبؤية التي تقع فيها عندما تعالج مجموعة بيانات التدريب 
قصد صقل مَغُلماتها. عليها OV‏ أن تعدل بشكل متزامن عددا كبيرا من المَعلمات. 
وذلك بالتحرك في عملية معقدة» من عقدة المخرج إلى كل عقدة من العقد الخفية. 
ومن ثم» لكل عقدة من عقد المدخلء IA‏ كل ترجيح على طول الطريق. وخلال 
هذه العملية «تدرب» الشبكة «نفسها» على التخمين الأفضل فى القيمة المتنبأة 
القائمة على البيانات التي جاءءت من قبل. l‏ 

تتجلى إحدى ميزات الشبكة العصبية فى معالجتها اللا خطية «(Nonlinearity)‏ 
أفضل بكثير من تقنيات الانحدار العادي» مائحة aie‏ كافية بخاصة. وهي قادرة على 
معالجتها من دون مخرج معين من لدن الباحث. والباحث لا يحتاج إلى القيام بعملية 
الزيادة في متغيرات تفاعل أو متغيرات محولة (مربعات» تحولات لوغاريثمية 
وغيرها)؛ إن النموذج نفسه هو الذي سيرسم خريطة لها. 

ولكن هذا لا يعني القول إن الشبكات العصبية أصبحت (Automated)‏ بشكل 
cols‏ بل إن هناك معلمات نموذج عديدة تحتاج - من أجل تحسين التنبؤ - إلى 
ترجيح من لدن الباحث عبر تشغيلات متعددة لشبكة عصبية cle‏ كما سنرى بعد لحظة. 
وإن عملية ضبط شبكة عصبية تخضع بقدر كبير» لعملية «التجربة والخطأ» (Trial—‏ 


.and-Error) 


وتتجلى ميزة أخرى لهذه التقنية: في قدرة تنبؤية معززة. SY‏ الشبكات العصبية 
عموماً متفوقة على نماذج الانحدار (أو - نظرياً - حتى على أشجار التصنيف) من 
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حيث توليد التنبؤات الدقيقة. ومثلها مثل أشجار التصنيف» فهي Lal‏ تتعامل مع 
النتائج المستمرة والفئوية بشكل جيد تماماً. 

ولكن الشبكات العصبية لا تخلو من بعض العيوب مثلها في ذلك مثل جميع 
pres) Bota)‏ 

hd Vol‏ كز dd ce gt‏ الشكات: الحصيية رد ال من tem‏ ااا 
للمدخل المبهم بشكل تام تقريباً (فهي غالباً ما يشار إليها باعتبارها طريقة #الصندوق 
الأسود»). وبخلاف الانحدارات» لا تعمل الشبكات العصبية على تيسير الحديث 
عن العلاقة بين المدخلات والمخرجات. ومن الممكن التوسل «بالغامب» بغية 
البحث في الترجيحات أو المعاملات التي تكوّن النموذج» غير أنها - مع ذلك - لا 
تسلم بتأويل سهل. وهكذاء نواجه المقايضة نفسها بين الدقة التنبؤية وقابلية التأويل 
لحا cde ae aa “7 ee‏ الا مو وا 

شجرة تقسيم كبيرة» نموذجاً سهل القراءة. فمن الممكن - بالمحصلة - قراءة أي فرع 

لخر ةما وها ولكن العقد الحضية تنا ال جات المولدة شك متكرر 
بالنسبة إلى ote‏ كبير من معلمات تفاعلية. وعلى سبيل المثال» ليس من السهل 
استيعاب معنى ترجيح مساهمة عقدة لمستوى أول خفي في عقدة طبقة ثانية خفية 

ثانياً: إن الشبكات العصبية غير متناسقة إلى de‏ ماء ما دامت تقوم على ilas‏ 
تعلم تكرارية» تقوم بدورها على تخمينات عشوائية أولية. إن تشغيل برنامج شبكة 
عصبية في (الغامب» مرتين - على البيانات نفسها - باستخدام المتغيرات نفسهاء 
ذات إعدادات المعلم نفسهاء والصلاحيةء انطلاقا من الحالات نفسهاء سينيج 
نموذجين مختلفين لهما إحصاءات تناسبية» تتنوع بشكل كبير. إن عدم استقرار 
المنصة العصبية (Neural Platform)‏ يتقلص عندما نستعمل مجموعات بيانات 
لعي 

WE‏ إن الشكات الحضية - مادامت فى التنبؤ - لها ميل قوي لتعقيد 
ae ous)‏ وو ايها عبر استعمال الصلاحية المتبادلة. ned‏ كانت 


sole} ودد ا وعليك‎ ties lab gai LISS فإن ذلك يعني انك‎ ot 


اا فل Lari‏ النماذج (وعادة ما يتم تحفميق ذلك من خلال تحذديل عمد aa‏ ة أقل). 
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وتوجد الروتينات (Routines)‏ بالنسبة إلى الشبكات العصبية فى نمذجة الحزمة 
الإحصائية للعلوم الاجتماعية Ry (SPSS Modeler)‏ (الشبكة العصبية للحزمة). 
Yu.‏ في «الغامب»» لمرونته العالية» ولتوفيره أدوات Jp‏ لبيانات ممتازة. وفي 
مثالناء نستخدم مرة أخرى بيانات من مسح المجتمع الأميركى. وقد تم تغيير هذه 
البيانات لتضم فقط البالغين ممن بلغوا سن العمل. الذين تم توظيفهم خلال ALLE‏ 
ونقوم بعملية معاينة 5/ من الحالات (لتسريع عملية البرامج). وسنتنباً بالدخل 
الشخصي مستخدمين مجموعة من المتغيرات المشاركة (Covariates)‏ 

ولبداية تشكيل النموذج افتح المنصة الأولية لانتقاء المتغير للشبكات العصبية 
(تحليل النماذج العصبية (CAnalyze Modeling Neural)‏ وفى هذه النافذة» يمكن 
تحديد المتغيرات المستقلة والتابعة في النموذج العصبي. ونشكل Y‏ ليكون 
اللوغاريثم الطبيعي للدخل الإجمالي الشخصي. ومتغيرات المتنبأ المختارة هي 
منطقة من مناطق البلاد والعمرء والتحصيل التربوي» وافتراض يحدد أولئك 
المسجلين بصفتهم طلبة في أي مكان» والمواطنة» ومكان الازدياد والجنوسة. 
والعرق» وعدد الأسابيع التي اشتغل المبحوث خلالها في العام السابق» وعدد ساعات 
العمل في الأسبوع في العام السابق. ونشكل أيضا متغير صلاحية (Validation‏ 
Variable)‏ إذا ما رغبنا في ذلك. وإن القيام بهذا - في الغالب - أمر جيد إذا ما أردت 
الصلاحية. 


ننقر OK‏ فنحصل على منصة إطلاق عصبية GRAS)‏ رقم B11‏ ونواجه 
مجموعة كبيرة من الضوابط والمّعلمات التي نحتاج إلى تشكيلها. وتسمح LI‏ 
اللوحة العلوية (Top Panel)‏ لهذه المنصة بتحديد إجراء الصلاحية. كما يمكننا 
الاختيار بين حصة الكابح CHoldback)‏ أو السطور المقصية (إذا ما سبق لنا إقصاء 
السطور فسيكون ذلك مساو لاستخدام متغير صلاحية كابح)؛ أو الصلاحية المتبادلة 
لطية-ك (k-Fold)‏ ونختار كبح ثلث البيانات للتحقق من صحتها. 
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أما اللوحة الموالية» فتسمح لنا باختيار عدد الطبقات الخفية التي نريدهاء وعدد 
List|‏ بحسب 4s‏ طبقة» ونوع التحولات (أو التفعيلات ((Activations))‏ التي 
نريدها أن تكون في JS‏ عقدة. ولا توجد هنا إلا طبقتان اثنتان. وإن استعمال المزيد 
من الطبقات والعقد بالنسبة إلى كل طبقة أضعافاً مضاعفة؛ يزيد من عقدة النموذي 
مما قد ينتج تنبؤاً أكثر دقة في مجموعة التدريب» ولكنه يزيد أيضاً من احتمال الإفراط 
في التدريب في مجموعة الاختبار. 


ويستخدم «الغامب» dls‏ التان (Tanh)‏ التماسية القطعية (Hyperbolic‏ 
Tangent Function)‏ بصفتها قيمة فرضية (Default)‏ هنا. olay‏ دالة سينية 
(Sigmoidal)‏ (ذات شكل (S‏ الشبيهة بالدالة اللوجيستية» ولكنها ممركزة ومقاسة. 
كما يستخدم التفعيل «الخطي» als‏ الربط البسيطة للذاتية (Identity)‏ الخطية التي 
يستخدمها انحدار المربعات الصغرى (Ordinary Least Squares Regression)‏ 
dls‏ هناك التحول الغاوسي (Gaussian)‏ الذي يستخدم دالة e™‏ لتحويل المزج 
الخطي ل .x’s‏ و«التان»» والتفعيلات الغاوسية كلاهماء يسمحان للنموذج بضبط لا 
خطيات معقدة في البيانات. وإذا استعملنا فقط دالة التفعيل الخطي» فسننجز - في 
aaa‏ اهو ار Vita ies‏ 

تسمح لنا اللوحة الموالية باستخدام التعزيز الإضافي إلى الشبكة العصبية» وهذا 
يعمل بقدر كبير مثل أشجار التعزيز. ونقوم بمواءمة سلسلة من شبكات عصبية 
صغيرة» الواحدة تلو الأخرى» بحيث تقوم كل شبكة على مخلفات مقاسة مستخلصة 
من النموذج السابق. ولا بد لهذه العملية - نظرياً - من أن تعمل على تحسين التنبؤ. 
ويخبرنا معدل التعليم النموذج بالنسبة التي يجب أن JAE‏ بها الترجيحات. استناداً 
إلى معلومات حديئة محصل عليها من النموذج السابق. Oly‏ معدلات التعليم الأكثر 
انخفاضاً تخفض من معلومات جديدة» وتدمجها أكثر مع تقديرات أقدم. وتنتح 
معدلات التعليم الأكثر ارتفاعاً (القريبة من 1) ترجيحاً أكبر لبيانات جديدة. 
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- Validation Method [i eas 


3 RRS | 
Holdback oponon 03223] i 
| 


: Hidden Layer Structure Oar ae 
Number of nodes of each activation type 
Activation Sigmoid Identity Radial 
Layer TanH Linear Gaussian 

Fist |__4 of 4 

Secon 


Second layer is closer to X's in two layer models. 





- Boosting — تسسات‎ tak نی ن‎ E me iin ey: ل ل ب ةي غ ن‎ ie 
Fit an additive sequence of models scaled by the learning rate. | 
| Number of Models 


Learning Rate 


- Fitting Options a سس سس ,سس‎ 
[Il Transform Covariates ae 


| Wl Robust Fit 
| Penalty Method 


NumberofTous| 5| 





توجد هنا مقايضة بين سرعة التوافق» والميل a‏ التفريط T.‏ التثاسبه. LAS‏ 
تسمح معدلات التعليم العليا بتوافق أسرع» ولكن من الأرجح أن تتناسب بخاصة مع 
البيانات الخاصة التى يشتغل عليها المرء. 


وعد للف tom oF‏ مال TEA TOTES PIT‏ قيطا ديجا . ويشير «تحويل 
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المتغيرات المشتركة» إلى تحول آلي» يستطيع «الغامب» إحداثة في متغيرات المدخل 
لتصحيح الانحراف» ومن ثم العمل على «تطبيع» المتغيرات. ويمكن هذا أن يجعل 
الشبكات العصبية أكثر دقة» ويوصى به على هذا الأساس. ثانيا: يتم توفير خيار 
«تناسب قوي» (Robust Fit)‏ بالنسبة إلى النتائج المستمرة. وهذا يقلص تأثير 
الحالات النشاز في البيانات. لقد سبق لنا أن قمنا بتسجيل الدخل الذي يضع حدا 
لهذا المشكلء ولكن لا نفرّط في الخيار تحسباً لأي طارئ. ومع ذلك تبقى «طريقة 
الجزاء» (Penalty Method)‏ طريقة أخرى للاحتراس من الإفراط فى التدريب فى 
البيانات من خلال فرض «معلم الجزاء» على التقديرات. ونحدد هنا الشكل pos‏ 
لهذا المعلم (ويمكن الوصول إلى قيمة المعلم نفسها بواسطة الصلاحية)؛ والقيمة 
الفرضية (Default)‏ هي مربع معلم الجزاء. التي نستخدمها إلا في الحالتين التاليتين: 

E E ١‏ لات 

ب. الاعتقاد في أن بعضها أكثر تأثيراً بكثير من غيرها في النموذج. 

وفي هذه الحالةء ينصح باستخدام Lo]‏ الشكل المطلقء أو الشكل المتلاشي 
pat‏ جيح .(Weight Decay Form)‏ 

تستخدم الشبكات العصبية قيماً أولى مولدة عشوائياً للبداية في عملية تناسبية 
البيانات» وتعديلها مع مرور الوقت. كما يعطي ضبط «عدد الدورات» (Number of‏ 
Tours)‏ للبرنامج» تعليمات TOY‏ عدد من الشبكات العصبية المنفصلة (Separate‏ 
«Neural Nets)‏ مستخدماً Lad‏ أولى عشوائية مختلفة للترجيحات. ومن هذه 
الشبكات» ستتم عملية اختيار النموذج الأنسب لبيانات الصلاحية. وبسبب عدم 
استقرار النماذج العصبية المشار إليها أعلاه» سيكون هذا خيار جيد اتخاذه. وعلى 
الرغم من أن ذلك سيزيد من وقت التشغيل» إلا أنه EY‏ للنماذج المتعددة من اشتغالها 
دائماً من أجل الحصول على تناسب جيد. 

وبعد تشغيل شبكة عصبية» تظل قيمة المخرج المفترضة من «الغامب» ضئيلة 
جداً (الشكل رقم 4.11)» إذ تتألف» ببساطةء من إحصائيات التناسب. وتعادل R?‏ من 
شبكة عصبية ذات نتائج مستمرة» تحديداء نسبة من نسب R?‏ من انحدار المربعات 
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الصغرى: إنها نسبة التباين في النتيجة التي يبرزها النموذج. وعلى نحو مماثل» تعد 
R?‏ المنتجة من أجل الشبكات العصبية ذات نتائج ثنائية أو فئوية مطابقة لنسبة شبه 
مربع (R?)‏ المحسوبة من أجل نماذج وحدة احتمالية (Probit)‏ أو لوغاريثمية 
(Logit)‏ (وفي هذه الحالة شبه مربع مكفادين -(McFadden’s Pseudo-R?‏ ويتم 
y‏ 85 بن 7 3 ° 
مراقبة الفوارق بخاصة فى التناسب بين هذين النموذجين من أجل تحديد ما إن كان 
تناسب النموذج مفرطا بشكل كبير؛ فإذا كان نموذج ما مفرطاً في التناسب op‏ ذلك 
يعني - dole‏ - أن نموذجأ إضافياً سيكون أكثر تناسباً مع مجموعة الصلاحية. 
ويتفوق «الغامب» في تصور البيانات» كما لا تستثنى الشبكات العصبية من هذا. 
وإن إحدى خيارات القائمة (في مثلث القائمة بجانب النموذج) وهو الرسم البياني 
(Diagram)‏ الذي سيقدم تمثيلاً بصرياً للشبكة العصبية الذي شغلتها منذ قليل. 
ولاحظ وجود ثلاث رموز مختلفة» تظهر فى عقد iib‏ خفية. وتشير هذه الرموز إلى 
دالات التفعيل الثلاثة التي استخدمناها في هذا النموذج من نماذج الشبكة العصبية. 


إن عملية نقر المثلث الأحمر في أعلى اليسار نافذة المخرج (الشكل رقم 4.11 
بجانب النموذج). وانتقاء «إظهار تقدیرات») «(Show Estimates)‏ سيعر JP‏ مكافوع 
تقديرات المعامل (Coefficient)‏ بالنسبة إلى کل المَعلمات (Parameters)‏ فى 
النموذج. وإن القيام بذلك. يبين العتمة (Opacity)‏ الشهيرة للشبكة العصبية المشار 
إليها أعلاه. وعلى الرغم من عملية التعليم التكرارية التي تسعى إلى بنائه» فإنه بإمكان 
الشبكة العصبية المحصل عليها - مثلها مثل انحدار ما - أن تمثل بصفتها معادلة 
blaro‏ و حيلة. وفي الأخير إن ما تم القيام به هو تقدير مجموعة من lala‏ ومع 
ذلك» فإن ذلك يمثل مجموعة كبيرة من المَعْلمات؛ ذلك OL‏ الشبكة العصبية أعلاه. 
مثلاء قدرت حوالي 200 منها. ويمثل العديد منها كميات من قبيل العلاقة بين العقدة 
الثالثة الخفية فى الطبقة الأولى» والعقدة الخفية الخامسة فى الطبقة الثانية. وتعد هذه 
طا = densi‏ الخلاضات Decal‏ لمدخلات د Selby Als doe‏ ل يمك 
تأويلها بشكل منعزل. ويدمج هذا المعلم بمعلمات أخرى. ويخضع لتحول رياضي. 
ot ad‏ ف قير ST deel‏ موا Gary‏ هذا عل كل DOLL‏ 


300 


النموذج. ولا معلم من هذه المّعلمات يملك معنى خارج ظهوره الخاص في الهندسة 
الكاملة للشبكة العصبية. ولهذا السبب» وعلى الرغم من أن الشبكات العصبية - 
بمعنى رياضى - شفافة بشكل كامل (Completely Transparent)‏ ( لإمكانية التعبير 
عنها ساد فإن العلاقات التي ترسمها مستعصية جداً على ests‏ 


4" Model 
NTanH(4) NGaussian(4) NTanH 2(2) NLinear2(1) NGaussian2(2) 
á Training : á Validation 
4 Ininc 4 Ininc 
Measures Value Measures Value 
RSquare 0.6392495 RSquare 0.6040336 
RMSE 0.7381036 RMSE 0.75524599 


Mean Abs Dev 0.4788077 Mean Abs Dev 0.4970041 
-LogLikelihood 4394.0819 -LogLikelihood 3 


SSE 2502.2524 SSE 1310.2004 
Sum Freq 4593 Sum Freq 2297 
4 Diagram 





N 


tana, 








الشكل رقم 4.11: مدخل من شبكة عصبية في «الغامب برو» (مع تصور ما للشبكة). 

ومع ذلك» ol‏ «الغامب» شم Nels tinaa‏ على معالجة العيب. وكما تقوم 
بذلك مع نماذج الأنحدارء فهي تقدم مجموعة من سمات «المحلل» (Profiler)‏ 
الى اتمكن Gell‏ من استكشاف العلاقات الهامشية بين المدغلات ic geal)‏ 
والمخرج. 
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ويمكننا «محلل السطح» (Surface Profiler)‏ من البحث في تمثيل ذي ثلاثة 
أبعاد للبيانات (الشكل رقم 5.11). وسيكون محور واحد - الذي هو 2 بطبيعة 
الحال- دائماً متغير النتيجة. أما المحوران الآخران» فيمكننا وضعهماء وهذا يسمح 
L‏ بفحص العلاقة ذات الاتجاه الثلاثى بين متغيرين اثنين ومتغير الاستجابة بالنسبة 
إلى إعذادات معترصة JR‏ المعفيرات الألخرى. th oud Kany‏ هذ الصندوق تسا 
ثلاثى ol‏ ليتسنى لنا رؤية زوايا متنوعة للعلاقات اللا خطية. وهذه تمثيلات 
مسعولة للعللاقات: العقية من الموقع. Spars‏ حلى تكرة بحول deel HAS‏ 
البيانات الحقيقية مع هذاء اختر الخيار الحقيقي البارز (Actual Option Under‏ 
Appearance)‏ وسيرسم هذا نقاط البيانات الحقيقية في الفضاء الثلاثي الأبعاد. إلى 
جانب العلاقة المتنبأة. 





الشكل رقم 5.11: التوصيف الثلاثي الأبعاد للبيانات 
باستخدام «الغامب برو ) لمحلل السطح. 
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الجدول رقم 1.11: الدخل المتنبأء استناداً إلى العرق والجنوسةء المحسوب 
باستخدام محلل «الغامب برو). 
E‏ الفرق 
$43,480 35,950$ $7,530 
$41,360 $29,143 $12,217 


$6,028 $32,532 $38,560 
$12,090 $34,540 $46,630 





ويسمح لنا المحلل (Profiler)‏ البحث في كيفية تأثير كل متغير - عندما يتحرك 
على طول مداه - في العلاقة بين JS‏ المتغيرات الأخرى والنتيجة. كما يسمح WS‏ هذا 
الخيار تحديداء بالاطّلاع على مدى نجاعة الشبكات العصبية في رسم خريطة 
اللا خطيات المعقدة في البيانات. كما تمكتنا Las]‏ من رصد التأثيرات الهامشية 
بشكل واضح للغاية. ويمكن للباحث وضع JS‏ المتغيرات الأخرى في كميات 
الفائدة» وبعد ذلك تبديل متغير Gob‏ على طول مداها. يمكننا ذلك مثلاء من رؤية 
تأثير العرق. والجنوسة»ء والدخل الشخصيء وتقييم الفوارق الجنوسية في الدخل 
استناداً إلى العرق. وبين الأشخاص البالغين سنّ 35 في منطقة الجنوب الأطلسي 
(الأكبر)ء المزاولين لعمل بدوام كامل (40 ساعة في الأسبوع» 52-50 أسبوعاً في 
العام)» هناك من ولد في الولايات المتحدة» ولهم هيبة مهنية متوسطة )40( وفي 
الفئة المتوسطة للتحصيل التربوي بالنسبة إلى السكان (كلية cle‏ انعدام الشهادة أو 
الدرجة العلمية)» قمنا بحساب القيم المتنبأة للدخل استنادا إلى العرق والجنوسة 
(الجدول رقم 1.11). 

تذكر أننا بصدد تثبيت معظم المحددات القوية الحقيقية للدخل (ساعات 
وأسابيع العمل» والعمرء والوظيفة» والتعليم)» الذي من خلاله يعبر مساوئ سوق 
العمل عادة عن نفسه. ويقدم LJ‏ هذا - بدمجه مع حقيقة حوزتنا لنسبة R?‏ تقدر ب 60. 
في بيانات الصلاحية - سبباً وجيهاً OV‏ نكون واثقين من أننا نشهد فوارق حقيقة على 
مستوى العرق والجنوسة. عوض خطأ المواصفات. وقد سمح لنا «الغامب» من رؤية 
نمط معقد بشكل واضح لتحديد مشترك للدخل استنادا إلى العرق والجنوسة» من 
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دون تحديده بشكل واضح في النموذج. وإن تفاعلات من هذا القبيل» تتولد بشكل 
Jl‏ بواسطة نماذج الشبكة العصبية. 

وتعد الشبكات العصبية OLA ES‏ مألوفة ومرنة للغاية بالنسبة إلى التنبق 
بحيث يمكن استعمالها في تنبؤ نتائج مستمرة» وثنائية» وذات فئة متعددة؛ وتقوم بهذا 
بدقة متناهية. كما تستعصي على التأويل بشكل مألوفء على الرغم من أنها تنتج 
كميات» شبيهة بشكل مباشر بمعاملات الانحدار. ومع US‏ وبدمجها بسمات من 
قبيل محلل «الغامب oly p‏ يمكن استخدامها لفحص علاقات هامشية مهمة» ولو أنه 
في الوقت الحاضرء لا يمكن إنتاج متوسط التأثيرات الهامشية. 

وفي الفصلين المتتاليين» سننتقل إلى فحص سلسلة من الطرق غير المراقبة من 
أجل دراسة العلاقات في البيانات. 
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الفصل US)‏ عشر 
التجميع 


تم استحداث تحليل التجميع (Clustering)‏ لمعالجة حالة مألوفة جداً في 
البحث. قد تظن أن حالات في بياناتك - ote‏ طلبة» Slab)‏ أو نقابات العمال Y-‏ 
تمثل عددا متنائراً Lil pte‏ بسيطا من الترصّدات الفردية» ولكنها تصف بشكل hail‏ 
باعتبارها مجموعات ترصدات. وما نريد القيام به» هو فصل حالاتنا إلى فئات أو 
تجميعات (Clusters)‏ من الحالات؛ أي القيام بما يشير - بمعنى من المعاني - إلى 
النوع البسيط والطبيعي ا من النمذجة الاجتماعية» أي النوع الذي يقوم به کل 
واحد بشكل ثابت» وعلى أساس مخصص في حياة اجتماعية منتظمة. ولكننا نريد 
القيام به بدقة» وتطور نظريء ودعم تجريبي» أكثر مما يتم القيام به على نحو طبيعي. 

كيف يتسنى لنا - إذن - تشكيل تجميعاتنا؟ وكيف يتسنى لنا تأكيد أن التجميعات 
التي نشترطهاء هي الأفضل - في الحقيقة - أو حتى طريقة لائقة لتصنيف بياناتنا؟ 
إجمالاً نحن نسترشد بالنظرية» ونسبة من الترصد: تذكر أنواع طلبة بول ويليس 
(Paul Willis)‏ )1977( في als‏ تعلم العمل (Learning to Labour)‏ أو تصنيف 
إيسبينغ أندرسون (Esping - Andersen)‏ )1990( لأنظمة الرعاية الاجتماعية في 
كتابه العو الم الثلاثة J‏ أسمالية الرعاية الاجتماعية (The Three Worlds of Welfare‏ 
¢Capitalism)‏ أو إذا كان لدينا ميل أكثر إلى التحليل الكمي. ستقترح - ريما - طريقة 
من طرق جمع حالاتنا التي تستخدم متغيرين أو ثلاث متغيرات» وبعدها نبحث عن 
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التثبت من أن الحالات داخل تجميع ماء هي مماثلة - في الحقيقة - من حيث متغير 
نتيجة ما ذي أهمية (من خلال استخدام أنوفا (ANOVA)‏ أي تحليل التباين أو 
الانحدار» لمتغيرات وهمية (Dummy)‏ على سبيل المثال). 

ويمكن اعتبار تحليل التجميع أكثر قوة» وطريقة متطورة من طرق التوجه نحو 
إنتاج فئات» وتأكيد وجود فئات. ولكن تقوم بذلك من خلال التأثير ليس فقط في بعد 
أو بعدين من الخصائص. ولكن في أكبر عدد ممكن تحتويه بياناتك» وتراه ذا صلة؛ 
وكما أن تحليل التجميع» tee,‏ ضيه هذه الفئات عبر استخدام كل المتغيرات 
المحددة» وليس فقط عبر استخدام هدف متميز أو متغير نتيجة. وأخيرا يسمح هذا 
التحليل بلعب هذه البيانات التجريبية دورا كبيرا في توليد الفئات» عوض خضوعها 
لهيمنة النظرية (على الرغم من أن النظرية» تلعب dasla‏ دوراً من الأدوار). 

التماثل والمسافة 


نقوم بتوليد الفئات في تحليل التجميع من خلال تجميع الحالات les‏ التي تعد 
Alas‏ كنت مجموعة Like ia‏ هن المي ات المئاسية» المشكلة ol pete)‏ 
المدخل (Input Variables)‏ بالنسبة إلى روتين التجميع. 5 OV‏ ما الذي يشكل 
التماثل Lol, (Similarity)‏ يكون ترصدان اثنان أكثر مماثلة» إذا كان لديهما قيما 
فتمائلة AL‏ إلى ote‏ كتير هن DEUS ol acl‏ المحددة» ان SL‏ إلى 
جميعها. وهذا أمر بديهي إذا كان لدينا متغير واحد فقط. ولكن التفكير فيه يصبح أكثر 
صعوبة عندما تكون لدينا مجموعة كبيرة من المتغيرات. ويدخل هذا ضمن مسألة 
تحديد مفهو م المسافة (Distance)‏ في الفضاء المتعدد الأبعاد (Multidimension‏ 
Space)‏ . 


ا It ow‏ اض Cte J ae Bb‏ اا 2S)‏ لحسن البعظ إن الطرق 

الأكثر شيوعاً التي تحسب بها المسافة في تحليل التجميع» مألوفة لدينا جميعاً ممن 
درس الهندسة فى الثانوية: المسافة الإقليدية kes (Euclidean Distance)‏ نقول إن 
لديك بعدين ونقطتين في هذين البعدين» ونريد معرفة المسافة بين هذين النقطتين. 
الجواب السهل عن هذاء هو أن هذه المسافة تقدم بواسطة Las‏ المستقيم (Straight‏ 
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Line)‏ الأقصر بين هذين النقطتين؛ ففي الهندسة التي درسناها في التعليم الثانوي. 
رسمنا النقطتين كليهما على مستوى ديكارتي (Cartesian Plane)‏ وبعد ذلك 
استخدمنا نظرية فيثاغورس (Pythagorean Theorem)‏ لإيجاد bat gb‏ الأقصر 
الذي يربطهماء أي بين نقطتين B‏ ول الذين يُحدّد كَل واحد منهما بإحداثين اثنين (x,‏ 
y)‏ نجد المسافة من خلال 


deuc (A, B) =\(%a - xB)? + (pa - ys)? 


ولكن ماذا لو كان لدينا أكثر من بعدين؟ إن الشيء الرائع هو أن هذا الأمر لا يهم 
- بحيث تعمم هذه الطريقة على ثلاثة أبعاد» وعشرة أبعاد و1 بعد. وستكون للحالات 
abl‏ مسافات إقليدية» صغيرة تفصلهاء بغض النظر عن عدد الأبعاد المحددة. 
وإذا ما أردنا معرفة - المسافة - ما بين نقطتين B‏ و4 فى حيز (Space)‏ محدد بأربعة 
إحداثيات (X,Y, 2, d)‏ فسيتم تحقيق ذلك من خلال ما يلي : 


druc (A, B) معد)ل.-‎ - xp)? + (ya - yp)” + (ZA — Zp)? + (da - dp)? 


كما يمكن lias!‏ استخدام أنواع أخرى من المسافات. وقد تستخدم مسافة 
مانهاتن (Manhattan)‏ أو («مجمع المدينة» ((City-Block)‏ التي تعد مجموع 
القيم المطلقة للفوارق بين قيم المدخل. أو نستطيع استخدام مسافة مينكوفسكي 
(Minkowski)‏ التى تعد تعميماً لکل من مسافتى «إقليدس» ومانهاتن على سلطات 
عليا؛ أو نستطيع أخذ ارتباطات متغير (Variable Correlations)‏ بعين الاعتبار 
مستخدمين مسافة ماهالانوبيس (Mahalanobis)‏ 


نقاط القوة العامة للتجميع 
يمكن أن يكون تحليل التجميع مثمراً بشكل كبير لغايات استكشافية وتوكيدية 
„œ ¢((Confirmatory)‏ الحالة الاستكشافية» يبدو أن لن لدينا فكرة dy aul‏ ونان 
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المجموعات الفرعية التى قد تصنف داخلها الترصدات. أو ما إن كان بإمكان هذه 
الي عات pad OF‏ ردك pate‏ إن اح تمع LI‏ الت عر اعات 
الكامنة في البيانات مع الأخذ بعين الاعتبار الخصائص الهامة» كما يمكن أن يخبرنا 
- بطريقة أو بأخرى - ما إن كانت بياناتنا مجمعة rel‏ وإذا كان الأمر كذلك» فكيف 
تختلف هذه التجميعات الأساسية؟ ومن ناحية أخرىء ربما لدينا نظرية ما حول 
المجموعات الفرعية القائمة. وفي تلك الحالة» يمكن استخدام التجميع لتحديد ما 
إن كانت نظريتنا مدعمة تجريبيا من قبل بياناتنا وما مدى الدعم. ربما هناك طريقة 
أفضل gl)‏ ربما سنستكشفها) لعملية تصنيف حالاتنا إلى فئات. 

هناك استخدام آخر ممكن للتجمع ويتمثل في استكشاف بنيات التغاير 
(Covariance)‏ المختلفة فى أجزاء مختلفة من البيانات. وإجمالا عندما نحلل 
علاقات بين المتغيرات - c B> EE‏ مثلاً نبحث عن علاقات خطية قائمة فى 
البيانات برمتها؛ TUCET‏ متقير ات تاغل قليلة لوغ إمكانية أن تقوم هذ 
العلاقات على متغيرات أخرى. إن التجميع يسمح لنا بالذهاب إلى أبعد من ذلك؛ إذ 
عبر التجميع يمكن إيجاد حيز فرعي من البيانات» تكون العلاقات فيه بين متغيرين هو 
8. في تجميع Sta cA‏ و24. - في تجميع 8. وهذا يعني أن العلاقة بين المتغيرات 
مختلفة في قطع مختلفة من بياناتناء وأنه بإمكاننا (استخدام تجميعات لتوليد 
مجموعات معقدة من متغيرات التفاعل لإدراجها لاحقا في نماذج انحدار. ويشيه 
هذا الاستخدام للتجميع - بشكل كبير - نمذجة المزيج» الذي سنناقشه لاحقا). 

نظرية الاعتماد 


مع ذلك» من المهم التركيز على أهمية اختيار المدخلات في تحديد الفئات. إن 
تحليل التجميع ليس وصفة سحرية للكشف عن التجمعات (Groupings)‏ في 
العالم؛ بل إن ما ينتجه بشكل كامل» هو دلالة من دلالات مايضعه الباحث فيه. وسواء 
تشابهت حالتان أم اختلفتا من حيث مساهمتهما الإقليدية» فإن ذلك يتوقف على 
المتغيرات المحددةء وإذا ما غيرت هذين المتغيرين» فستغير آلياء المسافات بين 
الحالات» وفى نهاية المطاف - شكل التجميعات التى تظهر فى النهاية. ومن 
Sale dba eV OLY‏ ا E‏ ت ا Alder‏ 
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مجموعة متغيرات المدخل. وإن تحليل التجميع - في هذه الحالة - شبيه بالتحليل 
العاملى «(Factor Analysis)‏ وتحليل المكون الرئيسى (Principal Component‏ 
Analysis)‏ الذي يحدد فيه اختيار المدخلات» ا ات aosda]‏ العوامل 
الناتجة. 

تجدر الإشارة إلى أن J‏ متغير في تحليلات التجميع» تأثيراً مماثلاً في تشكيل 
التجميعات. ومهم أخذ هذا الأمر بعين الاعتبار لسببين: 


السبب الأول فيتمثل في احتمال أنك لا تظن أن JS‏ متغير يجب يكون مهما 
بشكل plas‏ لاعتبارات نظرية. وربما تريد أن تكون بعض المتغيرات 
SI‏ ترجيحأبشكل كبير من غيرها. 

السبب الثاني: أحيانأء تستخدم أكثر من متغير واحد لالتقاط بعد معين أو حقيقة 
اجتماعية؛ إذ يمكن التعبير عن التشكيل العرقى لمدينة ما - مثلاً - فقط عبر مجموعة 
as‏ لي ا o ie‏ 


وسيكون لهذا البعد العرقي ترجيحاً كبيراً في تحديد التجميعات مثلما يقوم به 
علد الم اث الستخدمة::ولآنها مهل قلاف ol pate‏ أو أكثر قل تخمر قاشات 


أخرى (مثل حجم الساكنة التي يمكن التقاطها بمتغير واحد فقط). 


ثمة عدد من الأعداد الفرعية المختلفة لتحليل التجميع» ولكننا سنركز هنا على 
أربعة منها متاحة في الغامب (IMP)‏ 


.(Hierarchical Clustering) التجميع العو اتبي‎ è 
.(k-Means Clustering) k تجميع معدل-‎ © 
(Normal Mixtures) المزيجات العادلة‎ © 
(Self Organizing Maps) خرائط التنظيم الذاتي‎ © 
ولكل تحليل من هذه التحليلات نقاط قوة ونقاط ضعف. التي سنناقشها بعد‎ 


حين . 
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التجميع التراتبي 

في هذه الطريقةء نبدأ حالاتنا جميعها بشكل منفصل وفردي - فكر في JS‏ حالة 
عا ها سبي صن ا pete ald‏ سحتو ERR bel yay‏ 
التجميعين الأكثر قرباء ونقوم بتجميعهما داخل تجميع أكبر. ونكرر عملية ربط 
التجميعين الأكثر قرباء في كل خطوة, إلى أن نحصل - في النهاية - على تجميع 
واحد وكبيرء يحتوي على كل الحالاات داخله. ومن od‏ فإن التجميع التراتبي هو 
إجراء Jy «(Agglomerative) LS‏ خلال هذه العملية I‏ عدد ممكن من 
ات ب واحد وعدد الحالات فى البيانات. وتكون التجميعات الصغرى 
الج SS alg‏ ي ات ا وااو 
تات ان ل اا وت و ا ميم E‏ ا اا 
في رسم بياني معروف باسم الرسم البياني الشجري (Dendrogram)‏ 

لقن افا سارها Ol cil ce dle LAS‏ حال Fgh‏ صد فر دين أو الها 
ولكن التجميع التراتبي dole‏ ما يربط ليس BB‏ حالتين belly‏ تجميعين» بحيث يحتوي 
كل تجمع على حالات متعددة. فكيف تحدد المسافة بين تجميعين؟ هناك أربع طرق 
لحساب ذلك في «الغامب» بحيث (يجب اختيار واحد منها من قبل المستخدم منذ 
البداية). 


e‏ يعرف التجميع ذو الربط الواحد e(Single-Linkage)‏ المسافة بين تجميعين 
باعتبارها الحدّ الأدنى للمسافة بين أي عضو من أعضاء التجميع الأول وأي عضو من 
أعضاء التجميع الثاني. 

» وفي المقابل يعرف التجميع ذو الربط الكامل «(Complet- Linkage)‏ 
المسافة باعتبارها Jodi‏ الأقصى للمسافة بين أي من العضوين من أعضاء هذين 
التجميعين. وتعد هذان الطريقتان لتحديد المسافة حساسة بشكل كبير لحالاات 
النشاز (Outliers)‏ 

© كما يعد التوافق الحاصل بينهما تجميع متوسط الربط (Average- Linkage)‏ 
الذي يستخدم متوسط المسافة بين كل أعضاء التجميعين. 
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LÍ ©‏ تجميع ربط الجناح (Ward Linkage)‏ فهو أكثر تعقيدأء ذلك بأنه يمزج 
التجميعين الذين سينتج اتحادهما أصغر نمو إجمالا داخل تباين التجميع» كما تم 
تحديد ذلك من قبل دالة ما (عادة مجموع خطأ المربعات). 

وفي آخر التجميع التراتبي» وكما تم الإشارة إلى ذلك ET‏ لن يكون لدينا عدد 
oy‏ المجموعات ALS Lily dbase!‏ كتيزة من VL‏ المترايظة Sty Lee‏ 
تراكمي» ولكن تتجلى فكرة التجميع في خلق مجموعات متميزة. كيف يمكن لنا 
تفسير الكتلة الكبيرة من الحالات إلى تجميعات منفصلة كنا بصدد البحث عنها؟ 


إن الجواب عن السؤال الثاني سيساعدنا على الإجابة عن السؤال الأول. وتذكر 
أن التجميع gal al‏ لی و | eng‏ بحيث إن الأخير عدد 
الحالات فى بياناتنا. وفى ale‏ المطاف» يتوقف علينا البث فى عدد التجميعات 
الواجب حيازتها. ولكن لدينا Ao‏ نستئير به في هذا القرار» من خلال مراقبة الرسم 
البياني الشجري وتاريخ التجميع. وبعد شعين روتين تجمع تراتبي» سيتم إنتاج رسم 
البياني الشجري في «الغامب». وإذا حولت مقياس الرسم البياني الشجري إلى 
مقياس المسافة (مثلث أحمر مقياس الرسم البياني الشجري مقياس المسافة). 
فسيوضح هذا مقدار المسافة النسبية التي تم عبورها لربط تجميعين. وفي ظل ذلك 
سيُولّد رسماً بيانياً (Plot)‏ ركامياً مستطيلا» والذي سيرسم بيانياً النظام التسلسلي 
للتجميع من خلال المسافة بين التجميعات المترابطة. Bs‏ كل من الرسم البياني 
الركامي والرسم البياني الشجري» نسعى إلى تحديد « ika‏ فاصلة طبيعية» التي في 
حدودها تزداد المسافة بين التجميعات بشكل سريع (وهذا شبيه باستخدام رسم بياني 
ركامي لتحديد عدد العوامل المستخدمة في التحليل العاملي .(Factor Analysis)‏ 
ويمكن القيام بهذا أيضاً رقمياً بفحص تاريخ التجميع. 

إن جوابنا عن السؤال oS)‏ عدد التجميعات»؟ يجيب بدوره عن السؤال Lad‏ هي 
الحالات التي تدخل ضمن كل تجميع؟». ولأن الحالات ترتبط ارتباطاً تسلسلياً 
حسب المسافة التى تفصلهاء Lp‏ - ببساطة» ومن خلال اختيار عدد التجميعات - 
نبت فى المكان AS CI Stall‏ قه lee‏ التكدا VSD Samy.‏ ف أ 
aye‏ ات فا حلت بو هلو ال ع l‏ 


311 


يُوصَى بالتجميع التراتبي أساساً بالنسبة إلى مجموعات البيانات الصغيرة» ذات 
0 حالة أو أقل من ذلك. وفى الحقيقة» هذا مثالى بالنسبة إلى بيانات من هذا 
الحجمء بما أنها أقل حساسية لتأثير حالات النشاز في مجموعات البيانات الصغيرة 
مقارنة بطرق أخرى ستناقش die‏ خاصة تجميع معدل -. وبهذه الأعداد الهائلة 
من الحالات. يميل التجميع التراتبي إلى أن يكون مكثفاً حاسوبياء وتُفضل طرق 


أخرى. 
التجميع التراتبي في «الغامب») 


سنقوم باستخدام التجميع gel‏ لتجميع محافظات الولايات المتحدة La‏ 
مجموعة بيانات انتخابات عام 2012. والآنء لاستخدام التجميع التراتبي في الإطار 
الأنسبء قمنا بانتقاء - بشكل عشوائى - فقط عدد صغير من المحافظات )75( 
د 


(Analyze > Multivariate : للتجميع‎ (Dialog) نقوم بفتح مربع الحوار‎ 
.Methods > Cluster) 


وفي هذه النوافذ (الشكل رقم 1.12)» يحدد التجميع التراتبي باعتباره الافتراض 
(Default)‏ ضمن خيارات (Options)‏ في أسفل اليسار. ويسمح البرنامج باختيار 
دلالات (Functions)‏ الربط» وننتقي الجناح (Ward)‏ أما خيار البيانات الموحدة أو 
المعقدة «(Data Standardize)‏ فيتم التحقق care‏ وهذه سمة لطيفةء WY‏ نريد أن 
تكون المدخلات على مقياس واحد. 

وننتقي كمتغيرات JOM‏ نسبة المحافظة التي B55‏ بغير البيض المنحدرين من 
الأسبان» ونسبة الحاملين لدرجة الباكالوريوس أو درجة أكير» ومعدل الفقرء 
والخوارزمية الطبيعية للكثافة السكانية» ونقرنا فوق (OK)‏ يعطي عملية الانطلاق 

ويتم إنتاج الرسم البياني الشجري والرسم البياني الركامي» وتاريخ التجميع. 
بشكل تلقائي» وسنستخدم هذه الرسومات البيانية (Charts)‏ بالإضافة إلى تاريخ 


التجميع» لاختيار تجميعاتنا. ونقوم بتكييف الرسم البياني الشجري ليعكس 
المسافات (المثلث الأحمر > الرسم البياني الشجري > المقياس > المسافة) (Red‏ 
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«Triangle > Dendrogram > Scale > Distance)‏ ولجعل التجميعات متميزة 
ot tlt) b ne‏ < تجسسات اللون < ملك الحمر < تجميعآت العلا (Red‏ 
.Triangle > Color Clusters; Red Triangle > Mark Clusters)‏ 


أما الرسم البياني الشجري والرسم البياني الركامي فهما مبينان في الشكل رقم 
Ny.‏ 









Fi inding points that are close. have similar values 
he Columns 
=! 41 Columns 
asian 
atin 
hsize 



















Standardize Data 

| E Standardize Robustly 

IF] Data is distance matrix 
E] Missing value imputation 





الشكل رقم a‏ منصة إطلاق التجميع في «الغامب برو). 


وسيساعدنا هذا التصور على اختيار عدد التجميعات التى سنحتفظ بها. وثمة 
علامة صغيرة في شكل مَعِين (Diamond-Shaped)‏ في أعلى الرسم البياني 
الشجري وأسفلها. وبنقل هذا يمينا ويساراء يكون من الممكن تغيير عدد التجميعات. 
كما يمكن أيضاً البحث عن الرسم البياني الركامي - عن مكان بدأت فيه المسافة بين 
التجميعات في الارتفاع بشكل شديد الانحدار - نحو النهاية» أي خمس حالات مزج 
من أقصى اليمين. Mag‏ عده جيذ لتجميغات نهائية. وللتحقق من أن هذا اختيارا 
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جيدأء يمكن النظر إلى تاريخ التجميع» الذي يظهر في «الغامب» تحت الرسم البياني 
الشجري (ولكن غير مبين هنا). ونبحث عن نقطة تبداً فيها المسافة بين التجميعات 
في الارتفاع بشكل أسرع من ذي قبل. وهنا يتطلب المرور من خمس تجميعات إلى 
أربعة عبور مسافة 85.61 فى حين يتطلب المرور من ستة تجميعات إلى خمسة عبور 
سساقة 0.07 ققط ومن ثم تسر غود عمس تجمدالث أكسل dgr‏ 


وبمجرد الحصول على عدد التجميعات التى تريدهاء يكون من الممكن hi>‏ 
التجميعات (مثلث أحمر < حفظ التجميعات) (Red Triangle > Save Clusters)‏ 





الشكل رقم 2.12: رسم بياني شجري يصف تجميع الحالات المستخصلة من 
روتين التجميع الترابي «للغامب برو». 
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ویستنتح هذا متغيراً جديداً في البيانات يدعى «التجمع» betalur‏ 
ترتيب العرض (Save Display Order)‏ الذي يعمل على حفظ تر تیب الحالات في 
الرسم البياني الشجري القائمة من الأعلى إلى الأسفل. ويمكنك بعد ذلك استكشاف 
مدى اختلاف المتغيرات على مستوى التجميع. الذي يبين معنى التجميعات 
(الجدول رقم 1.12). وفي هذه البيانات ومن بين عيناتنا التي تصل إلى 75 De‏ 
يكون لتجميع 1» النسبة الأكثر انخفاضاً للسكان المكوّنة من البيض غير الإسبان. 
وأعلى معدل الفقرء والكثافة السكانية الأكثر انخفاضاً. أما تجميع 2ء فلديه نسبة عالية 
نسبياً من البيضء والكثافة السكانية» ومتوسط المعدلات الخاصة بالفقر والبالغين 
ممن لهم تعليماً جامعياً. وأما تجميع 3» فله أدنى نسبة من السكان. ممن بحوزتهم 
شهادة جامعية» ومعدل فقر عالي نسبياً وكثافة عالية - إلى حدّ ما - من البيض. 
ولتجميع 4 أكبر نسبة من البيض» وذات BUS‏ سكانية منخفضة للغاية. وأخيراً يضم 
تجميع 25 محافظات لديها في المتوسط. ساكنة بحوزة بالغيها تعليما عاليا وكثافة 
سكانية عالية» ومعدل فقر منخفض. 


Seer | danni | Senet | تجمى2‎ | teens] 


79.81 91.22 88.47 85.65 52.05 
35.97 18.53 11.95 2127 16.85 


معدل الفقر 20.45 | 11.21 6.58 

(log) الكثافة‎ 

السكانة 2.97 4.85 5.66 

46.71 | 29.22 | 31.62 | 38.32 | 41.78 / أوباما‎ 
ufo | » foe fo » 

الجدول رقم 21.12 خصائص التجميعات المنتجة بواسطة التجميع التراتبي. 


Lely‏ معدل التصويت لصالح أوباماء فكان الأعلى في تجميعي 1 و5» مما يوافق 
النتائج التي عرضناها سابقاء التي مفادها أن حصة التصويت لدى الديمقراطيين في 
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المحافظةء تميل إلى تكون أكبر من المحافظات المتنوعة عرقياًء وفي المحافظات 
ذات مستويات تعليم عالي. ومع US‏ تذكر أن المحافظات التي قمنا بضمها هنا 
تمثل مجموعة فرعية عشوائية صغيرة (حوالي 2.5/ عينة)» ومن ثم فإن التعميم الذي 
يقوم على أساس هذه الاستنتاجات يجب أن تتناول بحذر. وفي القسم الموالي. 
سنستخدم تقنيات تسمح بضم كل المحافظات. 


تجميع معدل -k‏ 

يختلف تجميع معدل - الإجراء الأكثر شيوعاً - نوعاً ما - عن التجميع التراتبي. 
والآهم من ذلك» عدم تداخل التجميعات في معدل heck‏ إن التجميعات الكبرى 
لا تضمن التجميعات الصغرى بأي حال من الأحوال. وعلى العكس من ذلكء ينتج 
تجميع معدل - (وهذا في الواقع يصدق على الشكلين الآخرين من التجميع الذي 
سنناقشه) be‏ معيناً من تجميعات مميزة (Discrete)‏ وذلك بتقسيم البيانات إلى 
أجزاء متقطعة عوض جمعها كتلة. وإن عدد التجميعات غير محدد باعتباره نتيجة 
لعملية التجميع» ولكن BY‏ من تحديده من قبل الباحث مقدماً. وأخيراء من الأرجح 
أن يجد تجميع معدل )- أكثر من التجميع التراتبي» حلولاً أقل مثالية» تحتاج نوعاً ماء 

وفى بداية تجميع معدل «-k‏ يحدد الباحث k‏ الذي شين ا علد التجميعات 
التى ينبغى إيجادها فى البيانات إلى جانب مجموعة متغيرات المدخل. ويستمر 
البرنامج في اختيار نقاط »- بشكل عشوائي في حيز متعدد المتغيرات. (وفي أغلب 
Ole‏ تقوم بهذاء من خلال اختيار مجموعة نقاط أو حالات البيانات الحقيقية. 
وتصبح هذه النقاط مراكز (أو «النقاط الوسطى») (Centroids)‏ للتجميعات. وبعد 
ذلك يحسب تجميع معدل e-k‏ المسافة (الإقليدية) Egs‏ حالة. وكل نقطة من 
النقاط الوسطى و«تخصيص» حالة النقاط الوسطى الأقرب. ونحصل من ثم على 
معدل Hk‏ المعدل أو المركز لكل سحابة من سحابات النقطة (ومن غير المرجح أن 
يكون المعدل هو النقطة المختارة فقن البداية) ويجعل هذه SS gas bla blest‏ 
الجديد. وتعيد الخطوات نفسها التى سبقت - وذلك بحساب المسافات» وتخصيص 
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حالات للنقاط الوسطىء وإيجاد نقاط المعدل» وتحويل النقاط (daw gl‏ مرارا 
وتكراراً إلى أن يقارب البرنامج حلاً مستقراً. وفي هذه النقطةء لدينا مجموعة من 
تاا ت يتكون IS‏ و احا من عد معيو نه OM Lo‏ 


والسؤال البديهي الذي يرجى ale‏ هو كيفية الشروع في اختيار عدد التجميعات 
التي نريدها. هناك جوابان ممكنان عن هذا السؤال. يمكننا اختيار قيمتنا ل k‏ وفق 
نظرية من النظريات: قد تختار ثلاثة أنظمة من أنظمة الرعاية الاجتماعية للدولة Seo‏ 
- إذا استرشدنا بتصنيف (Typology)‏ إسبينغ- أنديرسون (Esping-Andersen)‏ 
ومع ذلك» قد يكون هذاء أو قد لا يكون عدد التجميعات المثالية المحصل عليها 
بشكل تجريبي» مما يحيلنا على المقارنة الثانية. وفي هذا الحل» نستمر في عملنا مثل 
مختص حقيقي في التنقيب في البيانات» ونجرب lade‏ من القيم المختلفة KS‏ (عادة 
على نطاق معين)» وانتقاء القيمة التي يكون فيها الحل الأفضل . 

ولكن كيف يتسنى لنا معرفة الحل «الأفضل»؟ في الواقع» ثمة oleg‏ من 
إحصاءات التناسب» يمكن الاستعانة بهما لتحديد ذلك. أما نوع الإحصاء الأكثر 
إفادة فى هذه الحالة» فهو نسبة التباين ¢(Dissimilarity Ratio)‏ نسبة المسافة بين 
التجميعات إلى نسبة المسافة داخل التجميعات. وعلينا اختيار عدد التجميعات التى 
تعظم هذه النسبة» والشيء المثير بشأن هذا القياس» هو أن نسبة التباين - وبخلاف 
قياسات تناسب أخرى (مثل مجموع أخطاء المربع) - لا تنخفض آليا لدى إضافتنا 
التجميعات. وإن إضافة التجميعات قد يقلص مسافة التجميعات من الداخل (ويعنى 
مزيد من التجميعات» أن JS‏ تجميع سيشغل حيزاً أصغر» ويضم حالات أقل. راكد 
قد تقلص أيضا مسافة التجميع البيني (ويعني مزيد من التجميعات في الحيز المتعدد 
الأبعاد نفسه» أن التجميعات نفسها معبأة بإحكام أكثر). وبالتالي» من المرجح أن 
يكون حل Je)‏ ( للسؤال الخاص بعدد التجميعات الواجب تحدديها باستخدام 
نسبة التباين. ولكن» لسوء الحظء لا ينتح «الغامب» هذه النسبة آليا (كما يجب). 
فعلى المستخدمين حسابه بأنفسهم. أما الطريقة المتبعة في القيام بذلك» فسيتم 
وضفها لاحقا. 

يساعدنا استخدام نسبة التباين على اختيار ck‏ ولكن هذا لا يضمن لنا - على 
الإطلاق - إيجاد حل مثالي. ولفهم هذاء تذكر LAS‏ اختيار نقاط التجميع الأولى: 
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عشوائياً. إن عملية دعم العشوائية يساعد على إزالة التحيز الذاتي من الإجراء ولكن 
Lg‏ الج و قير الا ال ا Laren! a‏ اله iV!‏ لك ها كه 
تساعد عملية التكرار عبر الخوارزمية لنقل نقطة المركز - لا محالة - على تصحيح 
ذلك إلى حدّ ماء ولكن يبقى الحل النهائي - مع الأسف - متأثرا بالقيم المختارة 
عشوائياً في البداية. 

ولندرس مايلى: ودعنا نقول إن بياناتنا تحتوي على تجميعات k‏ «حقيقة». ودعنا 
نقول إننا محظوظونء ونختار القيمة نفسها KS‏ بالنسبة إلى عدد التجميعات الموجودة 
مع برنامج تجميعنا لمعدل »- ويختار البرنامج النقاط المركزية ل )بشكل عشوائي 
ويشرع في التكرار. ولكن» احتمال سماح العشوائية لنا باختيار النقاط المركزية 
بحيث يكون لكل تجميع احقيقي» نقطة مركزية واحدة» وواحدة فقط داخلهاء مختارة 
على نحو منخفض TR‏ إنه بالأحرى مثل معرفة وجود ثمانية أهداف دائرية 
(المستخدمين في الرشق بالسهام) (Dart Boards)‏ على حائط the‏ فإذا رمينا Olas‏ 
سهام عشوائياً على الحائط. فستستقبل - من الأرجح - بعض الأهداف الدائرية سهام 
متعددة داخلهاء في حين لا تستقبل أخرى. أي سهم. 

وإذا كان لكل التجميعات الحقيقية الحجم نفسه (الذي يعد الأفضل بالنسبة إلى 
غاياتناء فإن عدد الطرق التي قد نختار من خلالها نقطة واحدة لكل تجميع هو !) 
(1x2x3x... xk)‏ ولكن عدد الطرق التي نستطيع من خلالها اختيار نقاط ڄ» هي “) 
(مع افتراض أن حيزنا المتعدد المتغيرات كله هو في منطقة تجميع من التجميعات). 
وهذا يعني - عموماً - أن احتمال اختيارنا لنقطة واحدة لكل تجميع 
(P= k! /1(‏ منخفض» ويهبط أكثر عندما ترتفع عدد التجميعات (انظر الشكل رقم 
3.12 ونهجرة أن تكون LW‏ عمسن leant‏ هط SEN Sle!‏ الأول 
لنقطة واحدة من النقاط الوسطى [RI‏ تجميع» إلى 0.038 وعندما تكون لدينا 11 
lead‏ تكون لدينا احتمالات تصل إلى حوالي واحدة في 10.000. 


casuals‏ الاشارة إلى ذلك [Sts lave Mee BO! late‏ کرو :ساغدن 

- إلى حدما ina‏ لا يضمن الالنقاء ce‏ > فال وتكون الاحتمالاات )5 
انخفاضاً إذا لم تكن التجميعات متساوية في الحجم» أو في الكثافة» أو في «الشكل 
الكروي» - وستكون الاحتمالات في البيانات الحقيقية - على الأقل ستتم مصادفة 


318 


مشكلة من هذه المشاكل. وستتم طرق معالجة هذه المشكلة» ذات تجميع معدل -k‏ 
من ثلاث جوانب. 





الشكل رقم 3.12: احتمال انتقاء نقطة وسطى واحدة لكل تجميع ١حقيقي»‏ بواسطة 
عدد التحميعات «الحقيقية». 

أولاً: نستطيع داخل أي قيمة معينة ل ck‏ القيام بمحاولة تقليص مجموع أخطاء 
المربع» وتعظيم نسبة التباين. ويشمل ذلكء إعادة تشغيل الخوارزمية عدة wl yo‏ 
سعياً إلى البحث عن الحل «الأفضل»»ء لكن أيضاً سعياً إلى البحث عن الحلول التي 
تتكرر - بحيث تنتهي الحالات نفسها في تجميع واحد مراراً وتكراراً. 

ثانياً: يمكننا استخدام طرق التصورء بالبحث عن الحالات النائية عن المركز 
التي قد تنحرف عن النتائج» ومراقبة التجميعات نفسها لفحص ماء إن كان الحل 
ممكنا (يسمح «الغامب» بالنظر إلى حل التجميع ذي الرسوم البيانية ل مكون رئيسي 
ثنائي أو ثلاثي الأبعاد). 


WL‏ يجب علينا تذكر أن وجود أي عدد من التجميعات «(الحقيقية») ف بياناتناء 
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هو أمر غير مرجح تماماً. ومن الأفضل اعتبار حلول التجميع بمثابة استدلال 
«(Heuristics)‏ نسترشد بها لتبسيط البيانات والبحث عن الأنماط المهمة» عرض 
الكشف عن الطبقات الخفية للحقيقة. ومن ثم إذا صح ذلك» فإن نسبة «(صحة» حل 
التجميع سيكون نسبياً دائماً. وعلى نحو مماثل» قد تكون هذه النسبة «خاطئة». 


ET Ki EEEn ا‎ E SS E EAA REO Da E thet ا اا‎ E لقا‎ ac Be as | aaa 
E> Clustering - JMP Pro N ا ا‎ ET CS XK 


Finding points that are close, have similar values 
Select Columns — mmm = Cast Selected Columns into Roles - 
Œ 41 Columns __ | {¥,Cotumns) | perwhite 
-edhigher 
Inpopdens 
/perpov_q 
ا‎ ‘optional numeric 


- | j 

Í 3 | f و ل‎ 3 
| | of re ori 
- optional numeric 





Loptional 


f 
optional 


| K-Means clustering, Normal Mixtures, and SOM | 
[J] Columns Scaled Individually | 





الشكل رقم 4.12: اختيار تجميع معدل -k‏ فی 
منصة إطلاق التجميع «للغامب برو». 


تجميع معدل -K‏ فى «الغامب» 

سنستخدم بيانات انتخابات 2012 على مستوى المحافظة (التي استخدمناها في 
التجميعات التراتبية) لإنجاز تجميع تنجميع معدل cek‏ ولكن سنستخدم هذه المرة 
4 محافظة برمتها» عوض استخدام عينة صغيرة منها. ويتم ذلك من خلال فتح 
البيانات» وإيجاد العلبة الأولى لحوار التجميع (Clustering Dialog Box)‏ (الشكل 
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رقم 4.12). وفي القائمة المندرجة تحت الخيارات في الزاوية السفلية اليسرى» نغير 
الإعداد من التراتبية (Hierarchical)‏ إلى معدل .(K-Means) K‏ ونقوم Lal‏ 
بتحويل متغيرات المدخل عبر اختيار J sa‏ جونسون «(Johnson Transform)‏ مما 
يطبع المتغيرات المنحرفة» ويكبح جماح الحالاات البعيدة عن السو (SS‏ ونقوم 
باستخدام مجموعة متغيرات المدخل نفسها التي استخدمناها بالنسبة إلى التجميع 
oN é, ail all‏ نضيف حصة LoL oI‏ من (cy pas)‏ ونسبة <ET celd gul ES Ladi‏ 
الدخل المتوسط. وتفتح منصة إطلاق التجميع التكراري (Iterative Clustering‏ 
Launch Platform)‏ (وللاطلاع على ظهوره العام انظر الشكل رقم 2و تقل 
الموالى). 
تش late‏ من التجميعاث - أو عوطن ذلك - مسافة ddl‏ إلى -K‏ وتمكن 
البرنامج من منحنا نتائج بالنسبة إلى التجميع 3 والتجميع 5 (غير مبينة). كما أنه أيضاً 
فكرة حيدة لاستخدام انحرافات معيارية داخل التجميع› st Jelusa SU OY‏ 
Clie‏ الأحصاءات التناسيية ANY‏ 
لقد استخدمنا الساكنة بأكملها ل 3,441 محافظة» ونرى في الشكل رقم 5.12 أن 
معظمها انتهى بتجميع واحد (تجميع 2). ولدى العديد من التجميعات المولدة 
og VI‏ أعذادا شير اسن Voll‏ :وقد يس .هذا 
1. أن بياناتنا غير قابلة للتجميع» أو 
Ls} .2‏ اخترنا العدد الخاطئع للتجميغات: أو 
3. أننا وجدنا «حلاً محلياً» غير مثالى؛ أو 
4. أن بياناتنا الحقيقية تتألف من مجموعة كبيرة من حالات مماثلة ذات مجموعات 
متبايئة استثنائية. 
ويمكننا التحقق من هذا من خلال dale]‏ إجراء التحليل. ولكن لاحظ أنه إذا ما 
قمنا ably‏ «بإعادة إطلاق التحليل) «(Relaunch Analysis)‏ فستخدم قيم البذور 
نفسهاء وسنحصل على حل متطابق. إننا في حاجة إلى البدء من الصفر للحصول حل 
weiter “5 oe” p 5‏ 
ولإنتاج مجموع أخطاء المربع بالنسبة إلى النموذجء ننقر المثلث الأحمر 
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المجاور "K Means NCluster =3" J‏ ونختار b>‏ اعات .(Save Clusters)‏ 
تتح هذا عمو “pd‏ جديدير: : مهمة التجميع» وعمود يدعي المسافة (Distance)‏ 
وسينتج عمودین يدين: مهمة التجميع م يلمع اللي 
التى تعد مسافة كل حالة مستقلة من نقطتها الو سطى (Centroid)‏ وننتج عمودا ثالثا 
الذي يقوم بتربيع هذه المسافات. وبعدهاء نحسب معدل متغير مربع المسافة» ونضربه 
في عدد الحالات في التحليل. وهذا هو مجموع الأخطاء المربعة. 


47K Means NCluster=3 
Columns Scaled individually Use within-cluster std deviations | 
4 Cluster Summary _ 
i 136 24 0 
© 8 
4 Cluster Means | 
1 097505188 024401959 -17185925 -0.6253437 -12323663 -0.1389045 -1.7367295 


2 -00868893 003458119 0.08513217 -00041018 0.07714976 0052694 1 
3 134662458 -15127989 -0.1398114 110114552 -0.6291022 -1.515962 -0.8890874 


الشكل رقم 5.12: مخرج معدل 1- في «الغامب برو). 


ولإنتاج نسبة التباين (الجدول رقم 2.12( نحصل في» Yal‏ على إحصائيات 
وصفية اماس SAxeJl)‏ والانحراف المعياري) لکل متغير مدخل على حدة. ومن 
خلال استخدام هذه الإحصاءات الوصفية - بعد ذلك - إلى جانب النتائج المدرجة 
تحت «المقياس الأصلي توا التجميع « (Cluster Centers Original Scale)‏ 
لكل متغير» نحسب نتيجة -2 لمركز التجميع. وسيكون هذا مختلف عن معدل 


djal aai‏ جرسرتة, ورتسب Bladi‏ الأقليدية بين كل مجسغة من 
جموعات نتيجة -2 لمراكز التجميع» واتخاذ الأصغر من أصل هذه المسافات 


باعتباره قياس المسافة بين التجميع. وبعد ذلك» نجد لكل تجميع» المسافة القصوى 
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لحالة ما إلى النقطة الوسطى» وأخذ متوسط هذه المسافات القصوى باعتبارها قياسنا 
للمسافة داخل التجميع. وللحصول على نسبة التباين» نقسم مسافة بين التجميع على 
مسافة داخل التجميع. 

ويفترض هذا التحليل» تفوق حل التجميع الرابع قليلاء على حل التجميع الثالث 
والتجميع الخامس. وإن الأرقام العالية بالنسبة إلى متوسط الحد الأقصى لمسافة 
داخل التجميع» يمكن أن تتأثر بحضور الحالات الشاذة في البيانات. إن معدل 
المسافات التجميعات أصغر بكثير. ونستطيع استكشاف هذه الإمكانية من خلال 
فحص رسم بياني ثنائي» ثلاثي الأبعاد. وسيوضح هذا كيف أن الحالات والتجميعات 
منظمة في الحيز الثلاثي OL‏ والمحددة بالمكوّنات الأساسية الثلاثة الأولى 
لمتغيرات المدخل. ويمكن توليد هذا من خلال فتح القائمة بجانب حل التجميع 
الذي نهتم به في فحص واختيار الرسم البياني الثنائي الثلاثي الأبعاد (Biplot 3D)‏ 
ونعرض الرسم البياني الثنائي» الثلاثي الأبعاد لهذا التحليل في الشكل رقم 6.12. 
ويكشف الرسم البياني عن بنية بياناتنا. ولم تتجمع الحالات في مناطق متفرقة جداء 
بل إنها مجمعة في olal‏ مركز الحيز بشكل عام (في تجربتناء تعد هذه أكثر شيوعا من 
البيانات «المجمعة» بشكل واضح). وكل تجميع أيضا لديه حالات متعددة مخصصة 
له» التي تشكل حالات استثنائية بشكل واضح. 

إن حل التجميع الرابع في هذه البيانات» تحدد محافظات مختلفة (الجدول رقم 
2 ففي: 

التجميع الأول: لدينا مجموعة صغيرة من المحافظات القوقازية بشكل كبير. 
وفقير جداً في المتوسط. وكان لدى هذه المحافظات أدنى معدل دعم لأوباما في 
العام 2012 من أصل كل التجميعات. 

التجميع الثاني: فيشكل غالبية السكان البيض - ولكنه أقل كثافة سكانية - ذات 
متوسط دخل أعلى» ومعدل فقر أقل. وإن حصة أوباما من أصوات في هذه الدول 
كانت أعلى شيئاً ما من التجميع الأول. 
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التجميع الثالث: فهو التجميع النموذجي. وإنه متنوع bl‏ بقدر اکر cy‏ كلمن 
التجميع الأول أو الثاني. ولديه معدل فقر قريب من المعدل الوطني. 
التجميع الرابع: نجد فيه محافظات متنوعة إثنياء لها العديد من طلبة الجامعة. 
ومتوسط دخل le‏ ولها BUS‏ سكانية عالية نسبياً (حوالي 375 شخصاً : في الميل 
المربع). 
الجدول رقم 2.12: إحصاء التناسب بالنسبة إلى تجميع معدل -k‏ 


0.041453 49.93667 252,981.36 


0.052075 31.49333 : 250,739.28 





dole تمازجات‎ 

إن التمازجات العادية (Normal Mixtures)‏ وتمازجاتها العادية المتينة 
(Robust Normal Mixtures)‏ الشقيقة شبيهة للغاية بتجميع معدل ck‏ ويكمن 
الفرق الرئيس في تخصيص الحالات للتجميعات. وفي تجميع معدل ck‏ يخصص 
لكل حالة تجميع واحد. وفي المقابل» تقوم التمازجات العادية بحساب احتمالية أن 
تكون حالة معينة في كل تجميع. ويقوم النموذج أولاً برسم خريطة الحيز بمجموعة 
من التوزيعات العادية متعددة المتغيرات التي تعمل بصفتها «تجميعات». وستكون 
لكل حالة قيمة معينة في توزيع عادي متعدد المتغيرات للتجميع. وكما هو الحال 
بالنسبة إلى معدل e-k‏ فإن النقاط المركزية لهذه التجميعات تتكرر إلى حين إيجاد 
حل مستقر» ولكنه محلي» احتمالاً. 

الشيء الجميل بشأن التمازجات العادية هو أنها تتتج - كجزء من مخرجها 
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الأساسي - مصفوفة تباين التغاير لمتغيرات المدخل بالنسبة إلى كل تجميع. ويسمح 
لنا هذا بالبحث في كيف أن الارتباطات بين المتغيرات» تختلف بين التجميعات» 
ويمكن أن تساعد إذا أردنا تحويل حل تجميع إلى انحدار مع متغيرات تفاعل. إضافة 
إلى ذلك إن مسألة اعتبار الاحتمالات تقديرات لكل زوج تجميع - حالة» تسمح لنا 
بتحديد حالات على الشريط الحدودي لأن تصبح في تجميعات متعددة. 


وفي «الغامب)» يتم أداء تجميع التمازجات العادية بشكل كبير على النحو نفسه 
التي ينجز به معدل k-‏ وبمجرد الحصول على منصة التجميع التكراري» غير ببساطة 
«معدل عا-» إلى «تمازجات عادية» أو إلى «تمازجات عادية متينة». وستظهر المنصة 
كما هو الحال في الشكل رقم 7.12 أو 8.12. 





الشكل رقم 6.12: رسم بياني ثنائي» ثلاثي الأبعاد يبين التجميعات المنتجة بواسطة 


الحدول رقم 2 : خصائص التحميعات المنتحة بواسطة تجميع معدل .-k‏ 
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Iterative Clustering‏ !> لك 
Columns Scaled Individually‏ 
Transformations‏ > 
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Tours 






Maximum Iterations 


Converge Criterion 


الشكل رقم pa‏ ا اختيار تجميع التمازجات العادية فی منصة إطلاق التجميع 


وتظهر هنا بعض الفوارق انطلاقاً من تجميع معدل لس و لظ sl OF‏ تاس 
كلاهما يسمحان بأعداد مختلفة من «الجولات)» من أجل التحذير من إيجاد حل 
نجميع محلي» من خلال تشغيل البرنامج بقيم بداية مختلفة (The Max)‏ (الحد 
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الأقصى). إن إعداد التكرارات يقيد خوار زمية التهيئة (Optimization)‏ بالنسبة إلى 
عدد معين من التكرارات لتسريع المعالجة. 

Oy‏ معيار التقارب (والمتاح في التمازجات العادية» ولكن ليس في التمازجات 
العادية المتينة) يطلع «الغامب» على الاختلاف فى الاحتمالية الخوارزمية (Log‏ 
Likelihood)‏ التي تأخذ فيها بعين الاعتبار النموذج المتقارب» وإيقاف عملية التكرار. 





> ObamaR - K Means Cluster - J... 


4 ~ Iterative Clustering 


Columns Scaled Individually 
> Transformations — 


4 Control Panel 


Outlier cleanup: 


Huber Coverage 
Complete Tours 
Initial Guesses 


Max Iterations 





الشكل رقم 8.12 اختيار قوي لمزيج طبيعي 

مخلوط فى تكرارية منصة الإطلاق العنقودية 
ثمة اختلافات قليلة بين هذين النافذتين؛ إذ لدى التمازجات العادية المتينة 
إعدادا ihid (Setting)‏ هوبر (Huber Coverage)‏ وهذا تقدير Plas‏ لتقديرات 
«ساندويتش» هوبر- الأبيض المستخدمة في الأخطاء المعيارية المتينة. ويطلع 


EPA 








الإعداد «الغامب برو» على نسبة الحالات التى لا يجب اعتبارها حالاات شاذة 

pow يجب تقليص ترجيحها. وسمح التمازجات العادية‎ yY ومن ثم‎ «(Outliers) 

«تجميع شاذ» إضافي» يستطيع ضبط حالات تقع خارج منطقة أي من التجميعات 

الموجهة للمستخدم. وسيمنع هذا الحالات الشاذة من ممارسة تأثير كبير على المكان 
الخرائط المنظمة ذاتياً 


إن معظم الخرائط المنظمة ذاتياً - مثلها مثل الشبكات العصبية - تتعلم 
الخوارزميات» ولكن هذا الأمر ينسحب على برنامج الخريطة المنظمة ذاتياً في 
«الغامب». إنه شبيه للغاية بتجميع معدل 1-. إن الفائدة العامة للخرائط المنظمة ذاتيا 
في «الغامب»» تتمثل في قابليتها للتأويل. وقد تم تكوينها من أجل أن تظهر التجميعات 
في بنية Ob‏ بعدين شبيهة بالهيكل (بحيث توافق محاورهاء المكونين الأساسيين 
اول ل pate‏ ا )نوتعن التتبيعات tye da All‏ بعظيا فا ST‏ 
تشابهاًء وأما التجميعات البعيدة عن بعضها بعضاء فتعد أكثر تبايناً. 


وإن مايقع تحت الغطاء هو عملية رسم محور ثنائي الأبعاد باستخدام المكوّنات 
الأساسية الأولى» وقطع هذا الحيز إلى عدد محدد من قبل الباحث من مناطق متساوية 
الحجم» وقيم بذور مخصصة لكل منطقة. ويستخدم معدل -k‏ لتخصيص حالات 
للبذور» ويتم إيجاد المعدل لكل تجميع. كما تشغل الانحدارات - بعد ذلك - لتنبؤ 
المعدلاات» فيال انتقاء نقاط وسطى جديدة» ومن ثم انحدارات جديدة إلى أنه 


ولبناء خريطة منظمة ذاتياًء نقوم أولا بفتح Late‏ التجميع التكرارية» وتغيير 
.»-K Jiao‏ إلى «خريطة منظمة ذاتيا» (الشكل رقم 9.12). وعوض اختيار عدد 
التجميعات. علينا - في المقابل - انتقاء عدد السطور والأعمدة التي نريدها في 
هيكلنا (سيكون عدد التجميعات نتيجة هذين العددين). وبعد ذلك» نضع معلم حيز 
النطاق الذي يؤثر في نسبة التأثير الذي تملكه تجميعات الجيران على تقديرات نقاط 
وسطى. ونختار بناء 3 × 2 ذي حيز نطاق أقل من 0.5 
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إن المطبوع الأولي شبيه جداً بمطبوع معدل -k‏ وتمازجات عادية (الشكل رقم 
10.12( ويمكن فحصه لأجل أنماط في البيانات كما هي» ولكن علينا معالجة نتائج 
أولية مستخلصة من خرائط منظمة ذاتياً بالقدر الذي فحصنا به نتائج مستخلصة من 
-k Jie‏ وتمازجات yale‏ علينا مراقبة kell Ulan]‏ وتجر ب أعذادا اشرق 
من الحالات» وإعادة تشغيلها لتجنب J gl>‏ محلية» 9 NAS‏ 


4 “Iterative Clustering 
Columns Scaled Individually 
Transformations 


4 Control Panel 


Outlier cleanup: 


Method | Self Organizing Map... ¥ 


Number of Clusters... Optional range of clusters 


a) لا‎ 


Single Step 
N Columns 
Bandwidth: 





الشكل رقم 29.12 اختيار خريطة منظمة ذاتياً في منصة إطلاق التجميع التكراري. 


ويتم إعداد خريطة منظمة L513‏ بهدف تقليصها إلى بعدين. ونعيد إنتاج الرسم 
البياني الثنائي بإضافة «شعاعات» المتغير (الشكل رقم 12.11). وهذا يساعد على 
توضيح طبيعة الخريطة المنظمة ذاتياًء ثنائية الأبعاد. ولكن أيضاً يبرز العلاقة الوطيدة بين 
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التجميع» وتحليل المكون الرئيسي. أما المكون الرئيسي الأول (محور أفقي) فهو 
مرتبط ارتباطاً وثيقاً بنسبة الساكنة old‏ تعليم عالي» ودخل متوسط (بشكل إيجابي)» 
بالإضافة إلى معدل الفقر (بشكل سلبي). إن قياسات حصة أوباما من الأصوات» ونسبة 
الاساس الثانى (محور عمودي). أما نسبة البيضء فمترابطة (Correlated)‏ بشكل 
سلبي بهذا المكوّن. ونرى أيضاً أن التجميعات المتنوعة تقع داخل مناطق مختلفة من 
الحيز المحدد من قبل المكوّنات الرئيسة. وبالتالي» إن الرسم البياني الثنائي يخبرنا بأن 
التجميع الأول يصف محافظات كثيفة ومتنوعة وثرية نسبيأء والثاني يصف تلك 
المحافظات الأكثر ثراء» ولكن أقل BUS‏ وأقل تنوعاً (ومن غير المرجح أن تساند 
أوباما). LÍ‏ التجميع الثالث» فيضم مناطق محافظات حضرية فقيرة. ويضم التجميع 
الرابع محافظات فقيرة» ولكنها أقل كثافة وبياضا من التجميع 3. 






yh ObamaR - K Means Cluster - JMP Pro ae 3 5 3 EE EEE ET N TR ETE = ; 
4 ~ iterative Clustering 
> Control Panel 


4\*'SOM Grid 4 by 1 
Columns Scaled Individually 
Bandwidth: 0,4330127 
4 Cluster Summary 
1 730 22 0 
= 990 
3 902 
4 492 
4 Cluster Means 
Cluster perwhite edhigher inpopdens  perpov_q obama medinc _ perblack 
1 -0.3638256 1.02247904 1.14626806 -0.6196688 0.54260785 1.07504669 0.50953355 
2 058967977 0.14916515 -0.5683466 -0.5867011 -0.3154814 0.31509667 -0.7579817 
3 022179132 -0.5947623 -0.1787931 0.54662196 -0.3881303 -0.6138976 -0.0989866 
` 4 -1.2979259 -0.6528747 -0,0201513 1.17358293 0.73093576 -1.081825 1.21810727 


> Cluster Standard Deviations 
> Cluster Centers Original Scale 





Oo + ne 


E Ely 


الشكل رقم 10.12: مخرج من خريطة منظمة ذاتياً في «الغامب برو). 


330 


Prin 2 








-6 -4 -2 0 2 4 6 
Prin 1 


الشكل رقم 11.12: ثنائية الرسم البياني الواصفة لعلاقة التجميعات 
بالمتغيرات فى خريطة منظمة ذاتياً («الغامب (ay‏ 


وهذا يبين فائدة استخدام خرائط منظمة ذاتياً بالإضافة إلى مكونات رئيسة 
وشعاعات مقغير لتميبز تحليلات تجميع نهائية من Ce‏ التموضيع على طول 
استمراريات متغيرات مترابطة فى حيز متعدد الأبعاد. إن تحليلنا لأنماط التصويت لا 
يمثل عرضاً ls‏ ولک ae‏ العلوم Ass YI‏ في تجربتنا مجمعة (Clustered)‏ 
بشكل نادر وواضح. ومع ذلك» يمكن لتحليل التجميع أن يستخدم لتحديد أنماط 


التشابة سح سالات عل مبعرق مدعلات مهم ةنظريا. 
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(لنصل ESE‏ عش 
تحليل الطبقة الكامنة ونماذج المزيج 


تحليل الطبقة الكامنة 

تم استخدام تحليل الطبقة الكامنة (Latent Class Analysis)‏ فى بداية الأمر = 
وبشكل بارز - في العلوم الإنسانية من قبل لازارسفيلد (Lazarsfeld)‏ وهنري 
(Henry)‏ (1968). ويعد هذا النوع من التحليل» تقنية إحصائية أخرى فى العائلة 
الأوسع لنماذج المتغير الكامنة «(Latent Variable)‏ إذ يضم تحليل المكوّن الأساسي 
«(Principal Component Analysis)‏ وتحليل المعامل» و التجميع (Clustering)‏ 


ويمكن النظر إليه باعتباره clad gai‏ حيث يتم فيه تقدير متغير واحد كامنء له 
توزيع فئوي ما. وهذا الافتراض حول عدد المتغيرات الكامنة وتوزيعهاء يجعل 
تحليل الطبقة الكامنة متميزاً عن تحليل المكوّن الأساسي, الذي يفترض وجود 
متغيرات كامنة متعددة ذات توزيع عادي» كما يعد تحليل الطبقة الكامنة في بعض 
الحالات أكثر تماثلا من التجميع ما دام يسعى إلى استكشاف المجموعات الكامنة. 
ولكنها تختلف في ضرورة أن تكون متغيرات المدخل المستخدمة لإيجاد 
المجموعات. فئوية في حالة تحليل الطبقة الكامنة» و(في الغالب) مستمرة في حالة 
التجميع. ومع td‏ يعد تحليل الطبقة الكامنة» قريباً وثيقاً للتجميع العادي 
للتمازجات. لأنه يفترض أن التوزيع المرصود للاستجابات مكوّن من مزيج توزيعات 
متعددة أكثر بساطة. sly‏ بما أن تحليل الطبقة الكامنة يعالج البيانات الفئوية 
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للمُدخلء ويقدر احتمال المتغير الفئوي الكامن» فهو أيضاً وثيق الصلة بنمذجة 
اللوغاريثم الخطي. 

في الغالب» يستخدم تحليل الطبقة الكامنة في تحليل البيانات الوضعية 
للاستجابة المستخلصة من مُسوحات (Surveys)‏ لنتصور أننا سألنا مجموعة من 
الناس بشأن موافقتهم على الصلاة في المدرسة» والإجهاض» وزواج الكل 
ويمنحنا هذا مجموعة مؤلفة من ثلاث متغيرات» بحيث يأخذ كل متغير قيمتين 
سكت framed‏ على 'ثمانة أنماط: lets ble‏ ريد ol aaa‏ الى 
طبقات استناداً إلى هذه الأنماط من الاستجابة» غير أننا نظن أن ثمان طبقات» كثيرة 
جداً. ومن خلال تحليل الطبقة الكامنة» نصنف أنماط استجابة إلى عدد أصغر من 
الطبقات الكامنة» محددين ذلك العدد في وقت مبكر. ويسمح لنا هذا بتقدير 
مجموعتين من المَعلمات. 

أولاً: نقدر انتشار JS‏ طبقة من الطبقات الكامنة. 

ثانياً: نقدر احتمالية استجابة معينة لعضوية ما في طبقة كامنة. وبمثالنا الموقفي 
هذاء يمكن افتراض وجود مجموعتين - «الليبراليين والاجتماعبين»: و«المحافظين 
lolly elec VI‏ إلى مات اجات ا كا قدي نسب dl LAN‏ ال 
اجتماعياء US gh plas‏ المحافطية cle lace!‏ كما ما تقدير مدق ساتدة co poll‏ 
tte‏ لزواج المثليين» باعتباره ليبرالياً اجتماعياً. 

e ie‏ ب ae‏ ال لو ل 
خاضعة للرقابة. ويشترط الباحث عدد الطبقات التي يقدرها النموذج. غير ol‏ الحل 
الذي سيتم التوصل إليه لا يمكن تحديده من الوهلة الأولى. ومن ثم» لا نضمن. في 
مثالنا أعلاه - و جود مجموعات مطابقة لتصوراتنا بخصوص الليبراليين الاجتماعيين» 
والمحافظين الاجتماعيين. وعوضاً عن ذلك» وكما هو الحال بالنسبة إلى تحليل 
ola‏ يقن toll‏ هو الم ول عن fl‏ :دلالة المجموعات الكامنة اساد إلى 
توزيع استجاباتها للمدخلات المتنوعة. 


ويفترض نموذج تحليل الطبقة الكامنة قدرة بنية الطبقة الكامنة تفسير أي ترابطات 


334 


بين الاستجابات فى البيانات. ويعنى BUS‏ افتراض أن تكون الاستجابات لمدخلات 
متنوعة» داخل الطبقات الكامنة» مستقلة. وكما سبق لنا الإشارة إلى ذلك» على 
Ce UI‏ تحديد عدد الطبقات قبل التحليل. ولكن كيف يتسنى لنا معرفة قيامنا باختيار 
العدد «الصحيح»؟ Ls gee‏ يجرب الباحثون أعداداً مختلمة من الطبقات» ويقدرون 
الأنسب للنموذج (على مستوى الاحتمالية اللوغاريثماتية (Log-Likelihood)‏ أو 
معيار أكايكي cio glaat‏ أو معيار بايز للمعلومة» أو eG?‏ أو إحصاء تناسبي آخر). 

ومع ذلك» إن تحديد عددٍ ماء LL‏ للطبقات الكامنة» وعدد أنماط استجابة في 
البيانات» لا يمّكن من تحديد نموذج تحليل الطبقة الكامنة بالكامل؛ مما يعني أن 
تقديرات المَعلمات المتعددة سيعطى الاحتمالية القصوى نفسهاء أو بعبارة أخرى - 
هناك حلول متعددة لمشكل تحليل الطبقة الكامنة الأنسب على نحو مماثل. وهذا 
يعني أيضاء عدم استقرار تحليل الطبقة الكامنة في أغلب الأحيان» كما يمكنها بلوغ 
حلول مختلفة جدأء إذا ما أخذنا بعين الاعتبار القيم الأولى المختلفة. من أجل dia‏ 
إن ote‏ الطبقات الكامنة الممكن تحديدها - مع الأخذ بعين الاعتبار البيانات 
المدخلة - مقيدة. وفي العموم» يعد نموذج تحليل الطبقة الكامنة الأفضل من حيث 
القدرة على تحديد أعداد أصغر للطبقات الكامنة. 


للفصل في إمكانية تحديد نموذج ما بالكامل» من الضروري تجربة قيم أولى 
متعددة» وفحص إمكانية تقارب النتائج من الحل نفسه. وعموماء إن نموذج تحليل 
الطبقة الكامنة ذي التناسب الأفضل غير محدد بشكل تام» من أجل هذا يمكن تجسيد 
أحد الحلول لهذا الأمر في إنجاز العديد من تحليلات الطبقة الكامنة باستخدام 
البيانات نفسهاء وإيجاد معدلات الحلول. واعتباراً من OW‏ - مع ذلك - يبقى هذا 
قضية تطرح إشكالية ذات تحليل طبقة كامنة. 


ومن المهم أيضاً الإشارة إلى أن نموذج تحليل الطبقة الكامنة معرضة للتقارب 
على المستوى المحلي بدلا من الحدود العليا العامة (Global Maxima)‏ ويمكن 
حل هذه القضية من خلال محاولة fo ll‏ بقيم أولى مختلفة» ومراقبة إحصائيات 
الاحتمالية اللوغاريثماتية؛ إنها قضية» يمكن تناولهاء AST‏ مما يمكن تناول قابلية 
التحديد. 
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وبما أن تحليل الطبقة الكامنة عمّر لبعض الوقت. Op‏ عدداً من رزم البرمجيات 
الإحصائية تضم روتينات تحليل الطبقة الكامنة. إن لدى نظام التحليل الإحصائي 
(SAS)‏ برنامجاً يدعى معالج تحليل الطبقة الكامنة (PROC LCA)‏ يقوم بإنجازه 
بسهولة كبيرة. أما «الستاتا» (Stata)‏ فلا يملك تحليل طبقة كامنة مبنية داخلياء بل 
يوجد برنامج مولد من قبل المستخدم» يمكن - لسوء الحظ - تشغيله فقط بنسخ 
الطبعة الخاصة أو المعالجة المتعددة للستاتا (Stata’s SE or MP)‏ وليس فاصل 
الثقة (IC)‏ ومن الممكن أيضاً استخدام حزمة غلام (Gllamm)‏ المولّدة من قبل 
المستخدم لإنجاز تحليل الطبقة الكامنة. وإن غولدن الكامنة (Latent Golden)‏ 
متغير كامن أخرى» وهی سهلة الاستخدام «(User—Friendly)‏ 

ولدى (RI‏ عدد من الحزم التي تنجز تحليل الطبقات الكامنة. بما في ذلك 
تحليل المكوّن المستقل (Lea)‏ والنموذج الخطي العام (glm)‏ (ونبين هنا كيفية 
إنجاز تحليل طبقة كامنة فى (RI‏ مستخدمين حزمة تحليل الطبقة الكامنة المتعددة 
y (poLCA) (Linzer and Lewis)‏ وسنستخدم هذه لتحليل استجابة البيانات انطلاقاً 
من المسح الاجتماعى العام Chttp://www3.norc.org//Gsst+website)‏ 

لقد قمنا بإعداد البيانات في وقت مبكر» بحيث انتقينا ست أسئلة» من خلالها تم 
متنوعة : ac‏ والجيش. والرعاية (direc‏ والمدن. والجريمة. والعلم. إذا كان 
الجواب ب 

1. على is‏ مادة» فيعنى ذلك أن المبحوث (Respondent)‏ یری عدم Gla!‏ 
الحكومة ما فيه الكفاية؛ فى حين إذا كان الجواب ب 
3. فيدل ذلك على أن الدولة تنفق كثيراً. وقد bas‏ أيضاً مادة تمزج سؤالين: 
©إذالم تصوتواء فلصالح من كنتم ستصوتون؟ 
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وأخذت الإجابات رمز 1 بالنسبة إلى أوباماء والرمز 2 بالنسبة إلى ماكين» والرمز 
3 بالنسبة إلى رأي آخر. ونحمّل البيانات» ثم ننزل ونفعّل حزمة تحليل الطبقة الكامنة 
المتعددة في R‏ على النحو الآتي: 
Library (foreign)‏ 
essdata<-read.dta («gss_s12.dta»)‏ 
attach (gssdata)‏ 
install.packages («poLCA»)‏ 
library (poLCA)‏ 


وبعد ذلك نحتاج إلى ربط المواد التي سنستخدمها لإنتاج الطبقات الكامنة 
وحفظها في موضع يدعى XS2‏ وتراجع النموذج عن متغير المتراضي. لأساف 
ستصبح أكثر وضوحاً أدناه في نقاشنا حول انحدار الطبقة الكامنة. 


Xs2<-cbind(envir,urban,welfare,army,crime,science,vote08) ~1 


وبمجرد القيام dig‏ يمكن ¿LU‏ تشغيل البرنامج باستخدام السطر الواحد 
للرمز (أو الشفرة ((Code)‏ التالى: 


“ 


Ical<-poLCA (xs2, gssdata, nclass = 2, maxiter = 1000, graphs = FALSE) 


وكما ذكرنا LAT‏ إن x82‏ هو الموضع الذي نحفظ فيه نموذج الطبقة الكامنة. 
وده البيانات gssdata,‏ » ونحن بصدد تقدير نموذج ثنائي الطبقة )2 = .(Nclass‏ 
إن خيار الماكسيتر (Maxiter Option)‏ يحدد العدد اللأقصى للتكرارات لتعظيم 
الاحتمالية والرسوم البيانية = كاذب (FALSE)‏ يقوم بإطقاء / إيقاف الرسم البياني 
للدالة «(Graphing Function)‏ وستكون هناك الكثير من التكرارات لإيجاد حل 
الاحتمالية القصوى بالنسبة إلى نموذج ثنائي الطبقة. وعندما نزيد في عدد الطبقات. 
سنكون مضطرين للرفع من عدد التكرارات. ونشغل هذا النموذج عددا من المرات 
بأعداد مختلفة من الطبقات الكامنة لإيجاد أفضل تناسبية للبيانات (الجدول رقم 
1.13( 
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لاحظ عدم إشارة الإحصائيات التناسبية - بشكل لا يتطرق إليه الغموض- إلى 
عدد مثالى للطبقات. وإن معيار بايز للمعلومة يتجه من الخلف إلى الأعلى بعد خمس 
ا حون law‏ أكاتكن لمعاو راك مود ا bala atl tans‏ 
سبعة طبقات). bel‏ بخصوص الإحصائية التناسبية التي تختار الاستماع إليهاء فذلك 
شيء من قبيل دعوة الحكم في حضور أنصار الطرفين. ولغايات تتمثل في التقتير» 
نختار نموذح خماسي الطبقات. 
يملك حل خماسي الطبقات انتشاراً طبقياً يشير إليه شريط الرسم البياني (Bar‏ 
Graphs)‏ في الشكل رقم 1.13. LS‏ تصادف الطبقات 4 559 و1 على نحو شائع 
جدأء بنسبة سكان تتراوح ما بين 7.20 و25/. أما الطبقتان 2 و3» فهما أقل شيوعاً إلى 
حد ما. 
الجدول رقم 13.1: انتقاء عدد الطبقات لأجل 
تحليل طبقة كامنة من خلال فحص الاحصائيات التناسبية. 
رقم الاحتمالية معيار K‏ معياربايز 
الطبقات_ اللوغاريثمية للمعلومة للمعلومة 
2 13,945.89- 27,953.77 28,126.92 2,483.06 


G2 


2,344.08 28,109.31 27,846.80 -13,876.40 3 


2,235.16 28,121.75 27,769.88 -13,821.94 4 


2,151.26 28,159.22 211/9652 09 5 


2,093.29 28,222.61 27,692.01 - 0 6 


2,043.04 28,293.71 27,673.74 -13,725.87 7 


2,019.45 28,391.45 27,682.12 -13,714.06 8 
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0.25 





طبقة 5 طبقة 4 


طبقة 3 


طبقة 2 طبقة 1 
الشكل رقم 1.13: توزيع حالات الطبقات الكامنة في تحليل الطبقة الكامنة. 


الجدول رقم 2.13: احتماليات الاستجابة المشروطة بالطبقة انطلاقاً من تحليل الطبقة 
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الكامنة. 
طبقة1 طبقة 2 طقة3 طبقة4 طبقة5 
البيئة xls‏ 0.2382 0.3196 0.6771 0.8043 0.7438 
اعتدال ‏ 0.3520 0.6307 0.2222 0.1830 0.2299 
تناقص 0.4098 0.0497 0.1007 0.0127 0.0263 
المدن ls‏ = 0.1536 0.1181 0.0000 0.4829 0.3666 
اعتدال ‏ 0.2786 0.6188 0.0429 0.4402 0.2815 
تناقص 0.4678 0.1415 0.6046 0.0362 0.1457 
غير متيقن ‏ 0.0999 0.1216 0.3525 0.0407 0.2062 
الرعاية الاجتماعية تزايد 0.2137 0.2264 0.7250 0.4738 0.5738 
اعتدال ‏ 0.2106 0.6541 0.1169 0.3097 0.2106 
تناقص 0.5757 0.1196 0.1580 0.2165 0.2156 
جک wis‏ 0.4894 0.0866 0.1026 0.0438 0.4320 
اعتدال ‏ 0.3951 0.7151 0.3231 0.2609 0.5587 
تناقص 0.1155 0.1983 0.5744 0.6953 0.0093 
als TE‏ 0.5378 0.3179 0.4800 0.4805 0.8441 


اعتدال 0.3512 0.6175 0.3176 0.4250 0.1387 
تناقص 0111111 0.0646 0.2024 0.0945 0.0171 


العلوم تزايد 5 0.2203 0.3384 0.4735 0.4033 
اعتدال 0.4606 0.7028 0.5091 0.4165 0.5347 
تناقص 9 0.0770 0.1526 0.1100 0.0620 


انتتخابات 2008 أوباما 3 0.6295 0.6204 0.8872 0.6015 
ماكين 0.8062 0.1952 0.1295 0.0646 0.2887 
| غير 


وتُعرّض احتمالات الاستجابة المشروطة في الجدول رقم 2.13. وكما تمت 
الإشارة إلى ذلك سابقاًء إن «معنى» الطبقات يحتاج إلى تأويل من لدن الباحثء 
ونسعى جاهدين للقيام بذلك هنا؛ فمعنى الطبقة 1 واضح جداً - وبتعبير بسيط» فهي 
تمثل المحافظين. الذين يفضلون الإنفاق على البيئة» والمدن. والرعاية الاجتماعية. 
والإنفاق أكثر على الجيش» ومحاربة الجريمة. وقد ساندوا ماكين (McCain)‏ على 
حساب أوباما بهامش يصل إلى أكثر من 12 إلى 1. أما المجموعات الأخرى» فكلها 
من مساندي أوباما الذين بلغت نسبتهم - وهو الأمر الذي لا يدعو إلى كثير من الغرابة 
- حوالي 57/ من مجموع الحالات. (لقد فاز أوباما بحوالي 2/54 وهذه المادة تضم 
مساندة الممتنعين عن التصويت). ولكن يحمل مساندو أوباما أولويات مختلفة. 
ويمكن وصف الطبقة 2 باعتبارها تضم وسطيين راضين (Satisfied Centrists)‏ إذ 
يرون إنفاق الحكومة معتدلاً في المجالات الستة كلها (ولو أنهم يرجحون SST‏ 
أفضلية الإنفاق على البيئة أو الجريمة أكثر من أشياء أخرى). أما أعضاء الطبقة 23 
فيمثلون بشكل مثير للانتباه» الليبراليين المناهضين للمدينة (Anti-Urban‏ 
Liberals)‏ ويفضل هؤلاء الناس مزيداً من الإنفاق على البيئة» والفقرء والجريمة. 
ولكنهم يتجاوبون سلباً مع موضوع الإنفاق على المشاكل التي تواجه المدن؛ كما 
يفضلون الإنفاق على الجيش» ويساندون - أكثر من غيرهم في الطبقات الأخرى - 
الأطراف SUSI‏ أو عدم اتخاذ قرار. أما الطبقة 4» فتضم» التقدميين (Progressives)‏ 
بحيث يساندون أوباما على أعلى ter‏ ويفضلون الزيادة في الإنفاق على قضايا 
بيئية. وهم وحدهم من يرون رفع معدل الإنفاق على العلوم» وعلى أي شيء آخر. 
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عدا الجيش. وأخيراء يبدو أن الطبقة 5» تضم أناساً يفضلون. الإنفاق أكثر على 
مكافحة الجريمة» وتنظيف البيئة» والرعاية الاجتماعية. ويمكن اعتبار هؤلاء 
الليبراليين ممن يتبنى التوجه الحكوميء ذلك بأنهم يميلون - بشكل متزايد - إلى 
الإنفاق على الجيش أيضاء في حين يعارض معظم مساندي أوباما هذا التوجه. 
بحر هدا le ae le‏ وقذوا للغاية::ويطبيغة الخال أنه بإمكاتا التحضول على 
طبقات متنوعة من خلال ضم متغيرات مختلفة؛ وتكون النتائج احتمالية وأكثر إيحائية 
منها قطعية. وداخل معظم الطبقات» كان يتخذ الناس مواقف مختلفة عن الموقف 
النمطي بشأن أي dole‏ معينة. علاوة على ذلك» تعد هذه النتائح غير مستقرة بخاصة؛ 
فعندما كنا ندير مزيداً من النماذج خماسية الطبقة ذات قيم أولى مختلفة» حصلنا على 
حلول مختلفة ا حد ما. وفى کل k>‏ هناك مجموعة محافظة واضحة» Id‏ 
احتماليات استجابة مماثلة جداً لتلك المذكورة أعلاه (على الرغم من أنها لم تكن 
تمثل دائماً الطبقة 1) ولكن تتنوع المجموعات التي تفضل أوباما من حيث ملفاتهم 


الشخصية المحددة. 
انحدار الطبقة الكامنة 


يعد انحدار الطبقة الكامنة امتداداً لتحليل الطبقة الكامنة» وهذا النوع من الانحدار 
Y‏ يصنف فقط الحالات إلى ste‏ محتمل من الطبقات لدو اقا وإنما يستخدم 
tA‏ المتغيرات المشاركة (Covariates)‏ لتنبؤ عضوية الطبقة. ويجعل منها هذاء 
مماثلة للغاية لنموذج المعادلة AIS GI!‏ وتعمل بالأساس على النحو الذي يعمل به 
تحليل الطبقة الكامنة. مع انحدار stare‏ الحدود (Multinomial)‏ متصل به. 

وفى R‏ من السهل جدا تحويل تحليل طبقة كامنة إلى انحدار طبقة كامنة» وذلك 
باستخدام بيانات المسح الاجتماعي العام (GSS)‏ أعلاه. ولكن في هذه الحالة - 
ومن أجل التقتير - نفترض وجود فقط ثلاث طبقات كامنة. 
Xs2<-cbind (envir,urban,welfare,army,crime,science,vote08)~AG‏ 


E+conserve+pared+inc 
Ical<x-poLCA(xs2,gssdata,nclass=3 ,maxiter=5000,graphs=FALSE) 


لاحظ أن الاختلاف الوحيد في الرمز عن تحليل الطبقة الكامنة المنجز في وقت 
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سابق» هو تراجع المتغيرات الموقفية المحددة بالعمود بباسطة عن متغير اعتراضي. 
oly‏ برنامج «تحليل الطبقة الكامنة المتعددة» يؤول هذا الرمز باعتباره يحدد نموذج 
انحدار صفري (Null Regression Model)‏ وعند إضافة المتغيرات المشاركة. 
تستخدم المتغيرات المحددة بالعمود في توليد احتمالية عضوية الطبقة» ثم تتراجع 
عضوية الطبقة عن متغيرات التنبؤ. إن انحدار الطبقة الكامنة يقدم لنا صورة» ليس فقط 
عن توزيع المواقف السياسيةء وإنما Lad‏ عن الترابطات الممكنة لكل مجموعة. 
(الجدول رقم 3.13). 


الجدول رقم 3.13: تقديرات المعلم المتنبئ لعضوية 
الطبقة في نموذج انحدار الطبقة الكامنة. 


Class 1 Class 2 Class 3 

Environment Increase 0.3130 0.8401 0.6301 
Just nght 0.3935 0.1497 0.3521 

Decrease 0.2935 0.0101 0.0177 

Cities Increase 0.1677 0.3645 0.2757 
Just right 0.3058 0.2165 0.5166 

Decrease 0.3972 0.2071 0.1215 

Unsure 0.1293 0.2119 0.0861 

Welfare Increase 0.2771 0.6846 0.3689 
Just right 0.2619 0.1292 0.4828 

Decrease 0.4609 0.1862 0.1483 

Military Increase 0.4281 0.2521 0.0366 
Just right 0.4394 0.3930 0.4800 

Decrease 0.1325 0.3549 0.4834 

Crime Increase 0.5621 0.7459 0.3599 
Just right 0.3362 0.1726 0.5606 

Decrease 0.1017 0.0815 0.0795 

Science increase 0.2914 0.4492 0.3710 
Just right 0.5098 0.4619 0.5464 

Decrease 0.1988 0.0888 0.0827 

Election 2008 Obama 0.1547 0.7401 0.8600 
McCain 0.6808 0.1375 0.0574 

Other/unsure 0.1645 0.1224 0.0826 
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ويمنحنا الحل SHG‏ الطبقة» مجموعات تشكل 6/36 31/» و33/ من السكان. 
ale‏ الكو الي Eek E eels SU le‏ 
عا التى نوقشت فى حل Poo‏ الطبقة الكامنة خماسى الطبقة أعلاه. 
وتتألف الطبقة 1 من مزيد من الأفراد المحافظين» ممن يفضلون التراجع عن الإنفاق 
على الرعاية الاجتماعية و«المشاكل المدنية». ويريدون في المقابل دعم مكافحة 
الجريمة. أما دعم الجيش قوي ولكن ليس قويا مثل قوة الدعم الموجود في الطبقة ! 
ف lt jell‏ الط لفق وفوا مان duty‏ تفيل الى 0/68 بولكق ساد 
5 منهم أوباما. وتضم الطبقتان 2 و3 ناخبين أكثر تقدمياً وأكثر وسطياًء على التوالي؛ 
في حين تفضل الطبقة 2 بشكل ule‏ الإنفاق على البيئة» wells‏ والرعاية 
الم عه لفاك الجريمة كما يعد ثلاث أرباع هذه المجموعة من أنصار أوباما. 
أما الطبقة 3 فهي فاترة بشأن الزيادة في الإنفاق» وتريد الإنفاق على الجيش. ولكن 
هذه المجموعة التي تبدو أكثر وسطية في آرائها - هي في الواقع أكثر دعماً على ما 
يبدو لأوباما. 


نقدر عضوية الطبقة انطلاقاً من الدخلء والعمرء وتعليم الوالدين ol sel)‏ 
وقياس المحافظة السياسية. ويتم قبا كل الات يشكل سه يننا pls‏ 
المحافظة السياسية من الاستجابات لسؤال يطلب الناس من خلاله ذكر أيديولوجياتهم 
السات التي يتم ترميزها بسلم يتراوح ما بين 0 (ليبرالي جدا) و5 (محافظ جدا). 
ويجب أن يقرأ نتائج انحدار الطبقة الكامنة (الجدول رقم 4.13) بالطريقة نفسها التي 
تقرأ بها ails‏ الانحدار اللوغاريثمي ذي الحدود المتعددة؛ أي إن انحدار الطبقة 
الكامنة من طبقة واحدة» مجموعة مرجعية» ويقدر العلاقة بين متغيرات المتنبيع 
والاحتمالات اللوغاريثمية في كل طبقة من الطبقات الكامنة الأخرى بدل طبقة 1. 


ومن الأهمية الإشارة إلى أنه على الرغم من أن لدى أولئك الموجودين في 
الطبقة 2 ملفاً شخصياً أكثر تقدمياً من أصل JS‏ المجموعات» فهم يشبهون إلى i‏ 
كبير الطبقة 1 (المحافظين) من حيث العمرء وتعليم الوالدين. والتوجه السياسي 
المبلغ عنه ذاتيا. إن الاختلاف الرئيس يتمثل في كون أولئك الموجودين في الطبقة 2 
يتقاضون أجراً أقل من أولئك الموجودين فى الطبقة 1. وفى المقابل» يختلف الأفراد 
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في الطبقة 3 اختلافاً كبيراً عن المحافظين في الطبقة 1 بطرق شتى - فهم أكثر Ld‏ 
وإن لدی والديهم تعليماً da glows‏ ويبدو أنهم أفضل SVE‏ المتوسط. ويحددولن 


بكونهم أقل محافظة. 
الطبقة الكامنة. 
dab‏ 2 (مقابل 1) طبقة 3 blir)‏ 1) 
معا P‏ معا P‏ 
العمر )0.002( 0.002 339. )002.( 0.008- 001.< 
المحافظة )0.001( 0.020 151. )0.014( 0.058- 001.< 


تعليم الوالدين )0.001( 0.001 902. )0.036( 0.017- 001.< 
الدخل ($1000s)‏ (0.001) 0.015- 001. )0.000( 0.011 004. 


قا )0.003( 0.002 565. )0.000( 0.001 0.001< 

ومهم أيضاً الإشارة إلى أن هذه المجموعةء تدعم أوباما بمعدلات مرتفعة 
شيئاً يسمى «حزب» الديمقراطيين» كما يعد العديد منهم أفراد راقين. وفي المقابلء 
تشبه الطبقة 2 شيئاً مثل التقدميين ذوي الياقات الزرقاء. 

ويتطلب تأكيد هذه الأنماط تحليلاً أكثر كثافة مما يمكننا الانخراط فيه هنا. كان 
بوسعنا تناول الأسئلة الموقفية المختلفة بشكل عبثى» غير أن هذا التمرين يشير إلى 
كيفية استخدام انحدار التحليل الكامن عوض تجميع (Clustering)‏ حضور البيانات 
المُدخلة الثنائية أو الفئوية فى الغالب. 

نمادج مزيجة 

ترتبط طبقة تقنيات تدعى نماذج المزيح (Mixture Models)‏ إلى حد ماء 
بتحليل الطبقة الكامنة. وانحدار الطبقة الكامنة كليهما. وقد تم تطوير نماذج المزيج 
تصورياً في بداية الأمرء في العشرية الأولى من القرن الثامن عشرء إلا أنها لم تخضع 
للتجريب والممارسة بشكل كبير إلى غاية ظهور الحوسبة الحديثة. ولدى نماذج 
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الصورة» وجدت Laf‏ تطبيقاً في العلوم الاجتماعية» خاصة منذ تطور التقنيات, 
لتطبيقها على نماذج المزيج منذ تطور التقنيات» لتطبيق هذا النوع من النماذج على 
aaa‏ (اتظر مكلا لوت (Laub)‏ وناجين (Sampson) ð puol (Nagin)‏ 
(1998). 


وخلافاً لتحليل الطبقة الكامنة أو تحليل التجميع» يتم توجيه نماذج مزيج محددة 
نحو متغير نتيجة مهم جدا. وعموماء توزع هذه النتيجة على نحو مستمر» سواء 
باعتبارها cisle‏ أو لوغاريثم (Log—Normal) gale‏ أو بواسون (Poisson)‏ أو 
(Gamma) LE‏ أو ثنائية الحدود السلبية. والمفترض أن التوزيع المستمر الموجود 
ومثال كلاسيكي على ذلك» هو الارتفاع بين عينة مكونة من رجال ونساءء» حيث 
الجنوسة غير مرصودة. وإذا ما نظرنا إلى رسم بياني cle (Histogram)‏ فإن التوزيع 
سيكون إما عاديا أو ثنائى الحدين بعض الشىء؛ ولكن إذا أمكن LS‏ تحديد الجنسين 
بشكل منفصلء فسيكون بإمكاننا رؤية أن ما كنا نبحث عنه» هو - في واقع الأمر - 
على رؤية - أو على أي حال» عدم قياس - التغاير الأساسي قيد البحث. ولكن لدينا 
ما يبرر - dole‏ نظرياً - اعتقادنا فى أن العلاقة بين متغيرات المتنبى والنتيجة تختلف 
عبر المجموعات الكامنة داخل ساكنة ماء إننا نتوقع رؤية تنوع المعاملات في نموذج 
انحدارناء بشكل كبير بين الطبقات المختلفة. ويمكن لنماذج المزيج أيضا نمذجة 
غظيويةالطيقة: planed‏ هة عدا jlo‏ الطيقة DA‏ 


وتوجد روتينات المزيج بالنسبة إلى العديد من النظم الإحصائية. وإن لدى 
نموذج الحزمة الإحصائية للعلوم الاجتماعية (SPSS)‏ عقدة نماذج مزيجة خطية 
عامة. وقد كُتبّت حزمات متنوعة في R‏ لأجل نماذج المزيج بما في ذلك 
الفليكسمكس CFlexmix)‏ ولوغاريثئمات نمذجة 4 المزيج الغوسي (bgmm)‏ ويشير 
«الغولد» الكا من إلى حزمة برمجيات متاحة sinless‏ و مخصصة ددا بالنسية 
zok‏ متعير كامن. یما فی ذلك gales‏ المزيج. ولدى «الستاتا» (Stata)‏ برنامج 
برنامج لوغاريثمات نمذجة المزيج الغوسي ذي المستخدم المولد. 
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(Deb 2012)‏ وبما أن البرنامج برنامج مستخدم مولد؛ أي إنه لا يشكل داخل الهندسة 
الأساسية ل«الستاتا» فإنه يحتاج إلى تحديد موقعه على شبكة الإنترنت أولا. 


findit fmm 


وسيأخذك هذا إلى شاشة بحث عن برنامج قابل لتحديد موقعه بسهولةء ولهذا 
فما عليك إلا اتباع - ببساطة - التعاليم لتنزيله (Download)‏ وتأخذ صيغة البرنامج 
الشكل الاساسي: 
fmm depvar indvars [if] [in] [weight], components (integer)‏ 


mixtureof (distribution) probability (model2) vce (type). 


وفي هذه الصياغة» نخبر «الستاتا» بتقدير نموذج مزيج محدود. وحصر المتغير 
التابع في مجموعة من المتنبئات. ونحدد عدد المجموعات الكامنة التي نرى أنها 
ل 5 البيانات (المكوّنات)» وخيار ميكستشر أوف (Mixture of)‏ يسمح LS‏ 
بتحديد كيفية توزيع المتغير التابع (عادي» أو لوغاريثم عادي, أو «بواسون»» أو ثنائية 
الحدود السلبية» أو «أوغاما»). كما نستطيع أيضاً تحديد أشكال خطأ المعيار (vee)‏ 
Os‏ قوي» «بوتسراب»» أو «الجاك نايف» Jackknife)‏ كما يسمح خيار الاحتمالية 
للمستخدم بتحديد المتنبئات لنمذجة احتمالية عضوية الطبقة. 


ونحلل بياناتنا المستخلصة مرة أخرى» من المسح الاجتماعي العام» للعام 
2ء مستخد مين کمتغیرنا التابع» مقياس مركب من التدين (Religiosity)‏ المكون 
من أجوبة عن أسئلة» يستفسر الأفراد فيها عن مدى أهمية ديانتهم إليهم وعن عدد 
المرات التى يصلون فيهاء وعن عدد المرات التى يترددون فيها على الكنيسة. ثم 
نمزج هذه المواد في مقياس تصنيف محصل cade‏ لديه كرونباخ (Chronbach)‏ 
(Wl)‏ » ل 0.81 مما يوحي - حقيقه - بارتباط المواد بشكل وثيق. ونقوم بنمذجة 
التدين» مستخدمین الدخل. والجنوسة» والعمر» وتعليم الوالدين. والعرق (الذي 
يرمز لها المسح الاجتماعي العام بأبيض» أو أسود. أو آخر؛ ونتخذ الأبيض» مجموعة 


- 


مر جعية). 


346 


الجدول رقم 5.13: تقديرات المعلم بالنسبة إلى المتغير التابع (التدين)ء باستخدام 


المربعات الصغرى العادية ونموذج المزيج (ثلاث محموعات كامنة). 


الدخا 


قار 


المربعات الصغرى العادية 

معامل خطأ المعيار p‏ 
)011.( 0.001 0.997 
)037.( 0.282 0.001< 
<Q.001 0.010 ¢.001)‏ 
)005.( 0.015- 0.003 
)054.( 0.471 0.001< 
)065.( 0.180 0.006 
)143.( 0.547- 0.001< 


فريق 1 


معامل خطأ المعيار 


-0.012 (.008) 


0.035 (.022) 


(.0006) 


0.0007 


-0.005 (.003) 


-1.893 (.052) 


0.060 (.048) 


1.184 ).104( 


0.146 


0.114 


0.244 


0.115 


<0.001 


0.207 


<0.001 


ويأخذ النموذج المحدد. الصيغة التالية: 


نموذج المزيح المحدود 


(.012) 


-0.013 


0.263 (.042) 


(.0013) 


0.0060 
(.005) 


-0.010 


0.538 (064) 


0.263 (.063) 


(.154) 


-0.359 


<0.001 


<0.00! 


0.055 


<0,001 


<0.001 


0.020 


فريق 3 


0.054 (.021) 


(.0007) 


0.0001 
(.003) 


-0.005 
(.041) 


2.514 
(.035) 


0.046 
(.072) 


-1.412 


0.291 


0.011 


0.867 


0.084 


<0,001 


0.178 


<0.001 


xi : fmm religiosity Ininc female AGE par ed i.RACE, components 


(3) mix(normal) probability (EDUC AGE Ininc female) 


نحن بصدد تحديد نموذج تكون فيه التتيجة مزيجأً من ثلاث توزيعات عادية. 
وكما هو الال ASL‏ إلى تحال الظيقة الكامنة» إن ote‏ المكونات تخار = Vise]‏ 
- إما بسبب معرفة أو نظرية قبليةء أو لاختيار عدد المكوّنات التي لها أفضل تناسبية 
إحصائية. ونحن نختار الاستراتيجية الأخيرة. 
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وننمذج Lal‏ عضوية المجموعة» مستخدمين» التعليم» والعمرء Sealy‏ 
والجنوسة. ومن أجل المقارنة» نبين Lai‏ نتائج نموذج انحدار المربعات الصغرى 
العاديةء الذي سيبين متوسط النتائج بالنسبة إلى الطبقات الكامنة الثلاث 
(الجدول رقم 5.13). 


إن نموذج انحدار المربعات الصغرى العادية يخبرنا Ob‏ التدين SV‏ لا علاقة له 
بالدخلء لكن هناك نسبة أعلى (فى المتوسط) بين النساء مقارنة She JL‏ وأعلى بين 
sc)‏ راود clad EE Me Eady, all a pel So‏ الوالة Lan ately‏ 
يوحي بأن الوالدين المتعلمين بشكل أفضلء يميلون إلى تربية الأولاد تربية دينية أقل. 
وجدير بالاهتمام» تشغلينا لنماذج» ضمت التعليم العديم الصلة بالتدين» سواء خضع 
تعلم الوالدين للرقابة أم لم يخضع. وأخيراء ثمة علاقة إيجابية بين التدين والعمر. 

ويصنف نموذج المزيج» الساكنة إلى ثلاث مجموعات أساسية مختلفة. ويبقى 
Joa‏ غير ye‏ فط cpl‏ فى كل المحمؤعاة الكافنة lol‏ العم قبن tein‏ تيه 
ا oge at ne‏ ا actly Laid‏ إلى اع Stl ala hy‏ 
LS a‏ بقلة التدين» ولكن هذه النتائج مهمة فقط في 10.> ص في مجموعتي 2 و 3. 


وتعد النساء في مجموعتي 2 و3 أكثر تديناً في المتوسطء إلا أن الفرق لم يبلغ 
درجة الأهمية فى المجموعة 1. أما الفوارق العرفية فى التدين» فهى لافتة للنظر 
بشكل كبير؛ إذ يلاحظ في المجموعة 1» أن السود أقل تديناً بشكل كبير من البيض» 
وأن لا أهمية للفرق بين البيض والآخرين» ولكن فى المجموعتين 2 و3» يعد السود 
أكثر تديناً فى المتوسطء وهذا Poo eer‏ المجموعة 3. أما أفراد من 
So le pares‏ ا gh‏ عدا ما bys AST‏ من اض LB‏ فى الد 

Oly‏ الجدول رقم 66.13 يوضح نتائج نماذجنا الاحتمالية لعضوية الطبقة. ومرة 
أخرى» لابد من أن يفسر هذاء على النحو نفسه الذي يفسر به انحدار لوجيستى متعدد 
درد ot yyy‏ هة حال بجوي opie perce]‏ دو (عوض مجمرعة 


1( 131 كان poll‏ أكبر lie‏ وهذه BAM‏ أقوى بالنسية إلن المجموفة 2 م المجتموفة 
3 
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Class 2 (vs. 1) Class 3 (vs. 1) 
Coeff. (SE) p Coeff. (SE) p 


Age 037 (.007) >01 018 (.006) 002 
Female 412 (.216) 056 352 (188) 062 
Education -.073 (.038) .051 -.111 (.033) 001 
Income 102 (.076) 177 .015 (.056) 790 
Constant -1.659 (.894) 063 2.153 (.680) 002 


ويرتبط التعليم سلبياً بالعضوية في أي من المجموعتين المرتبطتين بالمجموعة 
1 إلا أن هذه العلاقة مهمة فقط فى 50.0> م بالنسبة للمجموعة 3. وأخيراً» يبدو أن 
هناك علاقة إيجابية بين كون اوو ا 
ولكن لهذا دلالة في 10.> l P‏ 

خلاصة 

لقد فحصنا في هذا القسم ثلاث تقنيات مَعلمية (Parametric)‏ لدراسة حضور 
المجموعات الكامنة في البيانات. وهذه الطرق - تحليل الطبقة الكامنة» وانحدار 
الطبقة الكامنة» ونمذجة المزيج - يمكن اعتبارها بدائل معلمية للتجميع. ويتوقف 
اختيار التقنية في القسم الأكبر على نوع بيانات المدخل المتوافرة لدينا (مستمر أو 
فئوية)» وعلى مدى رغبتنا في تقدير عضوية المجموعة في صلتها بمتغير نتيجة معينة. 
وبينا إمكانية استخدام تحليل الطبقة الكامنة لفحص بيانات الاستجابة السياسية ضمن 
مجموعات تشترك في نمط التفكير» وإمكانية فحص نماذج المزيج للتغاير الأساسي 
في التدين. ومع ذلك فإننا لا ننصح بالتأويل الذي يفيد بوجود هذه النماذج لطبقات 
أو مجموعات كامنة «حقيقية»؛ فهى بدلا من ذلك» طرق» من خلالها يمكننا نمذجة 
النمط في البيانات Ler]‏ وهذا يمكن أن يكوت مثمراً بالسبة إلى تظوير النظرية 
والسؤال. 


349 





النصل الرابع As‏ 
قواعد الارتباط 


يعد التنقيب في قواعد الارتباط» إحدى أهم تقنيات التنقيب في البيانات 
المستخدمة بشكل واسع. واستخدمت في شكلها الكلاسيكي - وكما طورها في 
J USI‏ من أغراوال (Agrawal)‏ وإيميبلينسكي Imielinski)‏ « وسوامي 
(Swami)‏ )1993( - فى فحص بيانات سلة السوق فى الخلفيات التجارية. وقد 
صمم هذا التطبيق pee‏ ليستفيد منه تجار التقسيط (Retailers)‏ المهتمين بأنماط 
ابتياع التي ينخرط فيها الزبائن. ولدى المحلات التجارية مجموعة معينة من المواد 
المعروضة للبيع في وقت محدد» بحيث يقتني الزبائن مجموعة من هذه المواد عندما 
يأتون إلى المتجر. وقد يرغب بائع التقسيط في معرفة مزيد من المشتريات التي يميل 
الزبائن إليها لدى شرائهم الحليب» أو البيض» أو بسكويت الكلب. ويمكن أن يساعد 
فهم هذه LL‏ باعة التقسيط على بيع مزيد من البضائع» من خلال اقتراح - مثلاً 
- أن المواد التي تباع بكثرة» مخزنة بالقرب من بعضها بعضا. ويتمثل المشكل في 
كون أن محلات السوبر ماركت يمكن أن تتعامل مع عدد كبير من المعاملات 
التجارية» وتنقل منتوجات مختلفة كثيرة» بحيث يمكن بيع عدد هائل - إلى حدما - 
من المواد في كل معاملة تجارية. 


ومن ثم» أضحى واضحاً أن هذا مشكلة بيانات ضخمة «(A Big Data Problem)‏ 


نما gp Leone‏ ال العا | NETE‏ ااا 
eg:‏ 9 ون من السرء oe‏ يكحن دباع 
تجاري ما 20 مادة منفصلة» ونحن مهتمين بالترابطات القائمة بين مادتين فقطء فإن 
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هناك 190 اا ما وإذا ما بحثنا فى کل الترابطات الممكنة (ليس فى اتجاهين 
Gliese‏ کون عدوا عات الك 575 1048 T=‏ دادر 
وبطبيعة الحال» لن تحدث معظم هذه المجموعة الممزوجة المحتملة من المبيعات. 
ومع ذلك فإنه بين التجميعات نفسها التي تحدث بالفعل» توسم مشكلة البيانات 
بالحدة الشديدة للغاية إلى درجة استدعاء الالية. 


ومن أجل مناقشة الترابطات الأكثر أهمية» والترابطات التى يمكن تجاهلهاء 
نحتاج أولاً إلى تقديم مصطلحين: l‏ 

الأول Gla‏ بالدعم (SUpport)‏ فدعم مزيج tole‏ معينة يعادل عدد JS‏ 
المعاملات التجارية التي تضم هذا المزيج» مقسوماً على مجموع عدد كل التعاملات 
التجارية. إذن. إذا كان الدعم بالنسبة إلى مجموع المواد (حليب» بسكويت) هو 10./ 
من أصل IS‏ المعاملات التجارية (معاملات قد تضم أي عدد من مواد أخرى). 


وأما القياس الموالي» فهي الثقة (Confidence)‏ وتشير ثقة قاعدة ما إلى احتمال 
رؤية مادة sls (Item)‏ مع الأخذ بعين glee‏ رؤا VTE‏ = ومع ذلك» 
يقتضى هذا القياس منا اعتبار مجموعة فرعية من المواد فى مجموعة موادناء لاحقة 
(Coisinn‏ التي تعد نظيرة المتغير التابع» في حين FES‏ المتبقي ene)‏ 
(Antecedent)‏ 


وإن ثقة 75/ في العلاقة ا ll ade da, aa‏ > 
فة aa‏ فهو (ots‏ الشتكويت tal‏ ولاحظ - مع ذلك - أن قلب 
الس Sar‏ الس التي thie‏ ل ل سين paar‏ ا ceo gle‏ كان 
اراق نينا ia sel‏ يعاد ل على الا ربوج الجتمال محص gle Ll‏ السكريت على 
اعتبار أن لدينا الحليب . ومن المهم أيضاً الإشارة إلى إمكانية أن يكون كل من اللواحق 
والسوابق مجموعات فرعية من مادة متعددة. ولهذاء من الممكن أن تكون لدينا قاعدة 
من قبيل (نقانق» كعك -> کاتشب» خردل) - احتمال حوزتنا على کل من الكاتشب 
والخردل على اعتبار أن لدينا النقائق والكعك. 


ويحيلنا هذا على شيء مهم لإنتاج قواعد الترابط المفيدة بالنسبة إلى البحث في 
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العلوم الاجتماعية. ومن الممكن تعيين مادة ما بصفتها ¢(Target) bua‏ أي تحديدها 
كلاحق. وستجد خوارزمية التعدين (Mining)‏ قواعد تشير إلى احتمال ذاك اللاحق» 
shee Vl gga de‏ تهون دراه Bile‏ 


وفي ضوء وجود عدد هائل من التجميعات (Combinations)‏ في مجموعة 
البيانات» يجب تنفيذ قاعدة مميزة ما جديرة بالملاحظة؛ انطلاقاً من قواعد غير ذات 
صلة. ويتم القيام بهذا - نوعاً ما - بشكل عشوائي من قبل الباحث الذي يدير قاعدة 
خوارزمية «التعدين». ويختار الباحثون الحد الأدنى من قيم الدعم» أو الثقة» أو هما 
cles‏ واستبعاد تجميعات بصفتها غير مهمة إذا ما فشلت في الاستجابة إلى الح 
الأدنى من المعايير. وهناك طريقة أخرى للحد من عدد tel yall‏ المتمثلة في تحديد 
Jol‏ الأقصى (أو الآدنى) لحجم مجموعات مادة اللاحق والسابق. وأخيراء نشير 
إلى أن الفعل الحقيقي لتعيين مادة ما باعتبارها لاحقة» لها تأثير تقليص مجموعة 
القواعد العائدة. 

من القضايا التي تثار في بيانات المعاملات التجارية» هو أن بعض المواد تباع في 
كثير من الأحيان (الحليب)» في حين تباع المواد الأخرى على نحو نادر (ملاعق). 
وأي حد Sol‏ لقواعد الدعم والثقة» سيضم - بالضرورة - قواعد كثيرة تحتوي على 
الحليب» وقواعد قليلة جدا تحتوي على الملاعق. ويمكن للمرء اعتبار ذلك نظيرا 
- في قواعد الترابط - لمشكل ذي نتائج نادرة. ومن الحلول المطروحة لهذه 
المشكلةء هو السماح للحد الأدنى من الدعم من أن يتنوع عبر المواد - أي استلزام 
حد أقصى من الدعم بالنسبة إلى مجموعة مواد تحتوي على الحليب» مثلاء ودعم 
منخفض بالنسبة إلى تلك المجموعة من المواد التي تحتوي على الملاعق. 

الآن» أمضينا معظم الوقت في الحديث عن محلات السوبر ماركت» ودكاكين 
البقالة» والحليب» والبسكويت - وقد يكون هذا لا محالة مفيداً جداً بالنسبة إلى 
أصحاب السوبر ماركت. ولكن بماذا يفيد هذا علماء الاجتماع وباحثين آخرين؟ 
ولماذا يستوجب على الباحثين الاهتمام بقواعد الارتباط؟ وكيف يمكن استخدام 
التنقيب في قاعدة الارتباط لدعم بحثنا؟ 
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إننا نؤمن بأن بإمكانية أن تكون قواعد الارتباط أدوات استكشافية قوية عندما 
يكون لدينا بيانات ذات متغيرات مستقلة (سمات). ويمكن للمرء استخدام التنقيب 
في قاعدة الارتباط في شكلها غير الخاضع للرقابة (أي دون متغير الهدف) للحصول 
على فكرة بشأن Las‏ اشتغال الأشياء بعضها مع بعض» غير أننا نعتقد في أنه من 
المفيد أكثر بالنسبة إلى العديد من الباحثين» الحصول على متغير نتيجة ذي دلالة. 
وبمجرد تحديد هذاء يستطيع المرء استخدام التنقيب في قاعدة الترابط للبحث عبر 
متغيرات مستقلة عديدة لاستكشاف المتغيرات التي تميل إلى الترابط مع النتيجة 
(Outcome)‏ كما يمكن القيام بذلك بشكل أسرع وأكثر نجاعة من إنتاج مصفوفة 
الارتباط «(Correlation Matrix)‏ ولكن من الأهمية بمكان. الإشارة إلى إمكانية أن 
يجد التنقيب فى قاعدة «hls‏ تجميعات الشروط (Combinations of‏ 
Conditions)‏ الا بالهدف. ويمكن لهذه التجميعات الإشارة إلى وجود 
تأثيرات مهمة ذات نوع تفاعلي(2008 (Ragin,‏ 

التنقيب في قاعدة الترابط في cdots‏ الحزمة الإحصائية للعلوم الاجتماعية 

لقد كان التنقيب في قاعدة الترابط موجودا منذ أكثر من 20 عاماً - عند هذه 
النقطة - وتستعمل بشكل كبير فى سياقات تجارية. ونتيجة لذلك» ظهر عدد من 
التطبيقات» القادرة على القيام به. 0 لبن مدمجاً في البرمتجات الاك Vices)‏ 
بشكل مألوف من قبل الباحثين (SAS „Stata ,PSS)‏ ومع ذلك هناك حزمة كبيرة 
ومعقدة بالنسبة إلى R‏ تدعى اللا قواعد (Arles)‏ كما أن منمذج الحزمة الإحصائية 
للعلوم الاجتماعية قادرة أيضا على إنجاز التنقيب في قاعدة الترابط. ونبين استخدام 
قواعد الترابط في منمذج الحزمة الإحصائية للعلوم الاجتماعية أدناه باستخدام 
البيانات المستخلصة من مسح المجتمع الأميركي» والتركيز على الأفراد الذين 
يفتقرون إلى تغطية التأمين الصحي. 

من المهم إعداد بياناتك قبل التنقيب في القاعدة» ويفترض التنقيب في القاعدة 
dale -‏ - إنهانائلة مو جر ةة فن :شك المعاملة التتجارية »حي يمل كز طر مر يجا 
من bale‏ زبون اا شل اکرو Lees yo‏ لمادة معاملة تجارية. وإن المواد المتعددة 


التي تم شراؤها كلهاء لا تظهر في السطر نفسه بل في السطور المتتابعة. وستكون 
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مجموعة (Dataset) ULSI‏ طويلة وضيقة nes‏ مع وجود عمود (Column)‏ واحد» 
يدل على هوية المعاملة التجارية أو المشتريات» وعمود آخر يحدد منتوجا فرديا. 
ومع ذلك» من الممكن إدخال Obl,‏ في شكل جدول (Tabular Form)‏ وتمثل 
السطون هنا معاملاك هان او Eb aha‏ ت يشير كل موه إلى ماد ك 
شراؤهاء ويضم عرض جدولي للبيانات «(Tabular Data)‏ إذن» متغيرات وهمية. 
تعادل 1 إذا تم شراء المادة في معاملة تجارية معينة» وتعادل 0 إذا حدث العكس . 


أما بالنسبة إلى علماء الاجتماع» فيعني حاجة التنقيب في قاعدة الترابط إلى 
متغيرات وهمية» أو على الأقل متغيرات فئوية» وعدم قدرتها على معالجة 
المتغيرات المستمرة بالنسبة إلى السوابق أو اللواحق. ولهذاء يجب أن تتحول 
المتغيرات المستمرة إلى متغيرات فئوية بواسطة طريقة من طرق التفريد/ التمييز 
(Discretization)‏ قبل تشغيل روتين قاعدة الترابط. علاوة على ذلك لا يقوم 
التنقيب في قاعدة الترابط بهذا على نحو جيد مع المتغيرات الفئوية المتعددة ذات 
الفئات العديدة» وسيكون - أصلاً - لدى هذه الفئات» معد لات دعم منخفضة تقريباً. 
ولهذاء على المرء اعتبار تجميع هذه الفئات ضمن فئات أوسع. ولمعرفة كيفية القيام 
بهذاء انظر إلى أقسامنا السابقة التي تناولت المتغيرات المستمرة المميزة» وتجميع 
المتغيرات الفئوية المتعددة. 


وعموماًء نفضل الحصول على بيانات يظهر فيها فقط المتغيرات الوهمية؛ التي 
يمكن - مع ذلك - إنتاجها بطرق مهمة ومبتكرة. وتذكر أنك لست بصدد بناء نموذج 
انحدار» ولهذاء لا يوجد داع للتيقن من أن الفئات حصرية وشاملة بشكل oles‏ 
لعدم حاجتك إلى تأويل معاملات التأثير. ويجب اعتبار المتغيرات الوهمية؛ متغيرات 
مؤشر (Flag Variable)‏ من أجل شروط مهمة. ولهذاء أمكن للمرء إدخال مؤشر ما 
من أجل مجموعة من الشروط - كون الفرد يتجاوز سنّ 30» ومسجل بصفته طالبا 
جامعياً في الكلية» مثلاً - من دون أن يقلق حيال طبيعة المجموعة المرجعية بالنسبة 
RE‏ 

أما في روتين ما من روتينات التنقيب في قاعدة الترابط» فهذا Y‏ يطرح MKS]‏ 
إذ يمكن للمرء أيضا إدخال متغيرات وهمية بالنسبة إلى تجميعات من الفئات 
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المتداخلة؛ فإن كان LW‏ خمس مجموعات إثنية فى بياناتهاء See‏ أمكن للمرء إدخال 
متغيرات وهمية بالنسبة إلى كل مجموعة على حدة (إدخالها برمتهاء دون إقصاء 
المرجعية). كما يمكن إدخال كل هذه التجميعات فى وقت واحد فى مجموعة بيانات 
التنقيب في قاعدة الترابط» وسيقوم الروتين - ببساطة - بخلط JB‏ متغيرات المؤشر 
الوحددة Ure‏ عما يمك Catena) Sigh Gated aged tel Bolted‏ 


إذن» قمنا بإنتاج مجموعة بيانات انطلاقاً من مسح المجتمع الأميركي» حيث 
ميزنا فيه العمر ودخل العائلة ضمن مجموعة فئات» وأنتجنا عددا من المؤشرات 
(Flags)‏ من أجل مجموعات من الحالات المهمة (مثل كون الفرد بالغ في سن 
العمل» وليس ضمن القوى العاملة). وأما شرطنا السابق» فهو «الافتقار إلى» حالات 
التغطية الصحية «CNohealthins)‏ وهو مؤشر يدل على الافتقار إلى أي تغطية صحية. 
نحن بصدد البحث عن صفات ومجموعة من الصفات المركبة» التي تعد سوابق 
(متنبئات) متكررة للافتقار إلى تأمين صحي. OV g‏ من الأهمية التأكيد على وجود 
bis sel g‏ يعم le U paral‏ اير عرقي ات ا واا ي LSA‏ 
ترافق كون المرء غير مؤمن» وهذا فرق مهم لا محالة. وبتعابير رياضية» ستخبرنا 
قياسات الثقة التي سنجدها - مثلاً - عن احتمال افتقار المرء إلى التأمين الصحي. 
Je‏ اعتبان أنه فقر» ويتحدر من أقلة عرقة» ولس عن الختمال كون pall‏ © فقيرا 
وينحدر من أقلية عرقية» باعتبار عدم امتلاك أي أحد تأميناً صحياً. 

ومن المهم الإشارة إلى الاحتمال الأساسي لمتغيرك الهدف أو النتيجة» عند 
تحديدنا للحد الأدنى من الدعم. وإذا حدث متغير هدفك بشكل نادر في بياناتك. 
فعلينا تحديد قاعدة الحذ الأدنى من الدعم على نحو منخفض جداء في الواقع. 
وستكون دوماً في حاجة إلى تحديد الحدّ الأدنى من الدعم على نحو أقل انخفاضاً 
من التكرار الأساسي لقيمة إيجابية في نتيجتك» وإلا لن تجد أي قواعد تذكرء كما 
ES‏ للا oye‏ انه اك فى بد عر — ene‏ ها 5 Lage ch‏ 
كاحتمال شرطي. 

إن لقطة الشاشة أعلاه تشير إلى كيفية القيام بهذا التحليل. وإن العقدة الموجودة 
في أقصى اليسارء هي عقدة مصدرنا (Source)‏ التي قمنا فيها بانتقاء بياناتنا. وبعدهاء 
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توجد عقدة «اشتق» (Derive)‏ (لوحة المجال) (Field Palette)‏ حيث قمنا بتحويل 
بعض من متغيراتنا. وأخيراء يتم انتقاء عقدة (apriori Node) Pins all‏ من لوحة 
النمذجة (Modeling Palette)‏ (الشكل رقم 1.14( ols‏ لدی EEA‏ ثلاث 
روتينات قاعدة ترابط منفصلة. ونختار الفرضية (Apriori)‏ لأنها تسمح للباحث 
بتحديد متغير مؤشرها (Flag)‏ (ويولّد روتين الكارما (Carma)‏ كل القواعد الممكنة 
من دون إمكانية تحديد مؤشر cle‏ ويضع التسلسل (Sequence)‏ النظام حيث تكون 
المواد المدرجة فيه مهمة). 

ثم نضع المَعلمات» وفي هذه الحالة» ينصح بالحفاظ على الحد الأدنى للدعم 
السابق منخفضاً نسبيا (في 0.5/) OY‏ نتيجتنا تظهر فقط في حدود 14/ من الوقت. 
ولكن ثبقى على الحدّ الأدنى من الثقة القاعدة عال إلى Le dm‏ وفى إكسبيرت تاب 
(Ekber Tab)‏ يمكننا إدخال إعدادات بديلة لفرز قواعدناء كما يمكئنا اختيار 
الإقصاء على أساس الاختلاف المطلق بين الثقة التي تمنح القاعدة والثقة القبّلية 
(مثلاء احتمال رصد اللا حق (Consequent)‏ بغض النظر عن السابق (Antecedent)‏ 
ومن جهة أخرىء نستطيع القيام بعملية الاختيار استناداً إلى معدل هذين القياسين من 
قياسات الثقة. وفي (Modeler) choral‏ يدعى olia‏ القياسان «اختلاف الثقة» 
«(Confidence Difference)‏ ومعدل الثقة «(Confidence Ratio)‏ على التو الى: 
ويعد هذان الإعدادان مناسبين بخاصة عندما تكون نتيجتنا نادرة نسبياء كما هو الحال 
في هذه الحالة. وهناك طرق مسكلة (Lal‏ «فاختللاف المعلومة») (Information‏ 
Difference)‏ يخبرنا بمدى تقديم ظهور السوابق لظهور اللاحق. ويأخذ بعين 
الاعتبار الدعم بحيث يتم تفضيل مزيداً من القواعد التي تحدث مرارا. ومع ذلك 
فاختلاف المعلومة أقل فائدة من نتائج نادرة مثل نتائجنا. كما يقوم مربع كاي المعياري 
Las] (Normalized Chi-Square)‏ على الدعم. 
)1( تشير كلمة فرضية (apriori)‏ إلى الخوارزمية الخاصة لتوليد قواعد الترابط المستخدمة من قبل TAA‏ 
الحزمة الإحصائية للعلوم الاجتماعية. وتعد خوارزمية الترابط الأولى التي تم اقتراحها من قبل أغراوال 
(Agrawal)‏ وزملاء في المقال الأول حول قاعدة الترابط المذكورة أعلاه. ومنذ ذلك الحين» تم تطوير 


العديد من الخوارزميات الأخرى. وجدير celexa YL‏ أن جميعها يقود إلى المجموعة نفسها من فواعد 
الترابط لدى تطبيقها على البيانات نفسهاء على الرغم من استعمالها منطقا متفاوت بعض الشيء. (المراجع) 
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الشكل رقم 1.14: تدفق قاعدة الترابط والعقدة الفرضية (Apriori)‏ في chess‏ 
الحزمة الإحصائية للعلوم الاجتماعية. 
إن بياناتنا والإعدادات التي اخترناهاء nip‏ 16 قاعدة ترابط jigs cál ar‏ 
إليها في الجدول رقم 1.14. ولدى قراءتنا لهذه القائمة وتأويلهاء يصير من المهم 
تذكر الأمر الذي تستطيع قواعد الترابط القيام به» والأمر الذي تعجز عنه. فالطريقة 
التي تقرأ بها قاعد رقم 1 - Mee‏ - هو أن 800 من غير المواطنين (Non-Citizens)‏ 
التي تتراوح أعمارهم ما بين 39-30 يفتقرون أيضاً إلى التأمين الصحي». وتعد 
قواعد الترابط لا معلمية» ولا تشمل أي شيء من قبيل الضبط الإحصائي. إن قواعد 
السابقة» هذا إذا كانت هناك عوامل Seok‏ - في القاعدة رقم 1» التي تقود الناس إلى 
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عدم حصولهم على التأمين. كما لا تطلعنا على مجموعات المقارنة (مثل المواطنين 
الذين تتراوح أعمارهم ما بين 49-40 ويحسبون على البيضء ولديهم شهادات 


جامعية). 


الجدول رقم 14 .: قواعد الترابط المولدة بواسطة الخوارزمية الفرضية ضية theta‏ 
الحزمة الإحصائية للعلوم الاجتماعية. 


القاعدة 


11 


12 


السابق 


غير مواطن + العمر بين 39-30 + لاتيني + 
تعل < تعليم ثانوي 
شمال جنوب المنطقة الو سطى + غير 
مواطن + لاتيني + تعليم < تعليم ثانوي 
غير مواطن + العمر بين 30 -39 + التعليم > 
تعليم ثانوي 
بطالة + العمر بين 19 -29 + لم يسبق له 
CA‏ ذكر + مواطن عند الولادة 


| ثانوي + لم يسبق له الزوا- 0 
عاطل + العمر بين 19 -29 + لم يسبق له 
الزواج م أبدا + ذكر 
GN + gbly yd‏ فام pels‏ اوی 


+ لم يسبق له الزواج أبدا + ذكر 
لاتيني + العمر بين 19 -29 + تعليم < تعليم 
is pb‏ 
العمر بين 19 -29 + تعليم < تعليم ثانوي + 
يسبق له الزواج أبدا + ذكر 


العمر بين 19 pa‏ < تعليم ثانوي + 
Alga th S3 t29- e‏ 
عند الولا ده 
المرب 595 ر ا و 


نانوي 
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الدعم 


0.6 


0.5 


0.7 


0.82 


0.74 


الثقة ./ 
80.0 
78.0 
77.14 
76.92 
76.47 
76.06 
74.14 
73.97 
73.08 
72.63 


72.60 
71.95 


71.62 


از“ 
5.87 


5.72 
5.66 
5.64 
5.61 
5.58 
5.44 
5.43 
5.36 
5.3 


5.33 
5.28 


29 


ونع a‏ قن 


5.24 71.43 0.56 14 
5.22 71.15 0.52 we Peli il لا يوجد في‎ 15 


الفح د -29 + تعليم < بعليم ثانو ي + 
لم يسبق له الزواج أبداً + ذكر + مواطن عند 0.61 70.49 5.17 


| لادة 


ولكن قواعد الترابط مفيدة جداً في إخبارنا بمن يفتقر إلى تأمين صحي. علاوة 
AUS le‏ فيي تقوم بلك على تحر sate‏ المتعيرات.بغير pla‏ وي 0 
المُدخل بالقيام ببعض المقارنات المحلية. دعنا نقارن قاعدتي 1 و3؛ فالفرق الوحيد 
هنا يتمثل في كون قاعدة رقم 1 أكثر دقة إلى cle do‏ بما أنها تضم «واللاتينيين» (and‏ 
latino)‏ أما المؤشرات الأخرى» فهي متطابقة» ولو أن ثقة القاعدة بالنسبة إلى قاعدة 
رقم 1 أعلى من قاعدة رقم 3. ويبدو أن من بين أولئك الذين تتراوح أعمارهم ما بين 
39-30 وغير مواطنين» ولديهم شهادة تعليمية أقل من الشهادة الثانوية» يلاحظ أن 
اللاتينيين أقل إلى حد ماء من المتوسط للحصول على تأمين صحى. ولمعرفة ما إن 
كان هذا الفرق الأخير aS)‏ دلالة»» على المرء إنجاز اختبار pee‏ رسمي منفصل . 
ols‏ قيمة القواعد الترابطية» في هذه الحالة» هو أنه يمكن أن نقترح علينا نوع 
الاختبارات الرسمية - من بين مجموعات فرعية - التي قد تكون مهمة. 

ويضم الجدول قياسات إحصائية قليلة. ويوجد في العمود الثالث الدعم 
.(Support)‏ وكل هذه المجموعات الفرعية تضاهي قسما صغيرا من مجموع 
السكان. أي Jal‏ من 1./ من كل الحالات. إن الافتقار إلى التأمين الصحي هو «(حدث 
نادر) Gi)‏ لسن نادزا LS‏ يجب)» وإن اتخاذ مجموعة «الافتقار إلى تأمين صحي». 
وعدد من المجموعات الأخرى صغير جداً في الواقع» بطبيعة الحال. أما العمود 
الموالي فيمثل الثقةء التي هي الاحتمالية الشرطية لعدم م: منح تأمين ماء مع الأخذ بعين 
الاعتبار الشروط السابقة J „>Í s .(Antecedent Conditions)‏ لدينا الرة فع (Lift)‏ 
الذي يشير إلى تحسين تنبؤ النتيجة التي نحصل عليها من خلال معرفة السوابق - أي 
الاحتمال البعدي (Posterior)‏ مقسوم على «الاحتمال القبلي». وفي الإنجليزية» تعد 
هذه - ببساطة - احتمال عدم الحصول على تأمين» مع الأخذ بعين الاعتبار مجموعة 
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من السوابق Mee)‏ اللاتيني ممن يتراوح عمره بين 39-30( وغير مواطن» وحاصل 
على تعليم أقل من التعليم الثانوي)» مقسوم على الاحتمال البسيط الذي يفيد عدم 
الفرعية ذات المصلحة؛ تصل إلى 5.87 مرة أكثر من احتمال الافتقار إلى تأمين صحى 
من متوسط الساكنة. ولأننا وضعنا الحد الأدنى للثقة في حدود 70» Oly‏ معدلنا 
الأساسى للافتقار إلى التأمين هو 13.63./» فإننا نرى فقط المجموعات الفرعية ذات 
رافعات تصل إلى 5.13 أو أعلى من ذلك. 


نرى في هذا الجدول ظهور المؤشرات مراراً وتكراراء ومردّ ذلك» أحياناً - إلى 
كون المؤشر مألوفاً ببساطة (مثل شراء الحليب أو الخبزء في بيانات محل البقالة). 
ولكن ليس هذا ما يحدث بشكل واضح في أغلب الأحيان هناء ذلك Ob‏ فئات 
الأغلبية» أو حتى الفئات المشروطة - ليست سائدة» وفى حالة من هذا القبيل» تعد 
النتائج أكثر أهمية وإفادة. كما يوضح الجدول بجلاء إخفاق النظام الحالي للتأمين 
الصحي - على الأرجح - في توفير ضمان صحي لمزيد من السكان المهمشين - أي 
من غير المواطنين بخاصة» وأولئك الحاصلين على تعليم رسمي قليل» والشباب. 
والعاطلين. وحيثما تصادفت مجموعة قليلة من هذه المؤشرات» ارتفعت معدلات 
الافتقار إلى التغطية الصحية بشكل لافت للنظر. 


Lol Le‏ حددنا الخد الاد 4a)‏ القاعدة فى متعد لذت هر le dedi‏ وكا 
تحديدها في معدلات أقل بكثير» ولكن قد نحصل بعدها على مزيد من قواعد الترابط. 
وفى هذه cabled‏ إذا حددنا الحد الأدنى للثقة فى حدود 90. فلن نجد أي قواعد 
ال ا seul (980 Mase‏ اعا ولك يع هل لسر دتا 
من الانخفاضات فى الثقة من عدد القواعد الموجودةء أضعافاً مضاعفة. وفى حدود 
0 نجد LS)‏ في المعطى أعلاه) 16 قاعدة. وفي حدود 40ء يرتفع إلى B15‏ وهكذا. 
وأخيرأ إذا حُدّد الحدّ الأدنى للثقة فى 15» فقط فوق متوسط الساكنة التى تفتقر إلى 
التأمين الي SACU 6,729 decid‏ ومن ت OP‏ د الت الى ك اك 
ليسمح ذلك بجمع مزيد من المعلومات المفيدة حول مجموعات فرعية مهمة 
احتمالأء ولكن على حساب إثقالنا بالمعلومات (الشكل رقم 2.14). وفي هذه 
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النقطة» تكون غاية تمرين التنقيب في البيانات قد انهزمت» وعوض استخدام القوة 
الحاسوبية لإبراز الأنماط المفيدة داخل قدر ضخم من البيانات» كان علينا تنظيم هذا 
القدر الهائل من البيانات على نحو مختلف» والعمل على بذل قليل من الجهد فى 





الشكل رقم 2.14: عدد من قواعد الترابط العامة 
عند مستويات مختلفة من الحد الأدنى للثقة. 

إق dal oll suelo Call‏ هو ية OLA‏ التب يالاات الم اة 
WE‏ فى إعذادالف کجاررك ES,‏ کا WT‏ رای همالا بشكل عفيد عن SS‏ 
yo tell‏ أجل OLE‏ ا مايا del Sof‏ الم ابط telus oT «Sey‏ اا ی على 
استكشاف OVE‏ وتجميعات من SN OVE‏ تحدث بشكل متكرر بالإضافة إلى 
بي هدق digas‏ واا عرسا sl yall tel gall‏ أوساوية سول اال الما 
للعلاقة بين السوابق واللواحق» فستبقى إيحائية جداًء ولكن بالإمكان أن تكون مثمرة 
في اقتراح مسارات مهمة في البحث» إذا ما استخدمت بالاشتراك مع طرق استكشافية 
wgl‏ 
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ما هو القادم؟ 

لقد مر أكثر من نصف قرن على بداية انتشار الحوسبة عبر المجتمع» ليصبح 
تأثيرها بديهى فى العديد من مناحى حياتنا. ولما شرعت الأعمال التجارية فى ت ركيب 
الحواسيب في الستينيات بالات وفق أهداف محدودة co ERT‏ 
في الذهن: العمل على «جعل» أنواع معينة متنوعة من سجلات المعاملات التجارية 
«آلية» من أجل تقليص نفقات إعداد الفواتير والاستعانة بالحسابات والميزانيات 
العمومية. ويدرك القليل أن إحدى المنتوجات الثانوية (By-Product)‏ المهمة. قد 
تمثل طوفاناً من بيانات الأعمال التجارية التي تمكن المديرين من الولوج إلى تفاصيل 
المبيعات أو تدفق المال في تلك اللحظة بالذات» عوض انتظار إغلاق الحسابات في 
آخر الشهر أو العام. كما أدركت الشركات سريعاً إمكانية تحليل آلاف التفاصيل من 
المعاملات التجارية لتحديد أجزاء الشركة ذات الأداء العالي والمنخفض» بغية 
تقليص حجم المخزون للتحول إلى توفير منتوج في الوقت المناسبء أو إلى مبيعات 
وإعلان أكثر دقة. إن بيانات المعاملات التجارية تغيرت من كونها عبء عمل ورقي 
إلى كونها مصدراً قيماً للمعلومة» واستبصاراً حول عمليات وعروض تجارية. إن 
عصر البيانات الضخمة قد بدأ. 


لقد أصبحت مصادر معلومات وإمكانات جديدة متاحة للتحليل نما ان قدراً 
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كبيراً من الاتصال تحول إلى اتصال رقميء أو انتقل عبر الإنترنت. نستطيع متابعة 
الأوبئة من خلال الاستفسار عن الأعراض عبر الإنترنت؛ واستكشاف مشاعر الرأي 
العام من خلال تحليل عدد الكلمات المدرجة في وسائل الإعلام؛ كما يمكن تعقب 
التحولات في استخدام اللغة عبر وثائق غوغل» وفحص الشبكات الاجتماعية. 
وانتشار الأفكار؛ إضافة إلى (إذا كنا نمثل وكالة الأمن القومى) التجسس على 
المكالمات الهاتفية الرقمية» والبحث عن الإرهابيين أو عن «إبر في أكوام قش» أخرى 
من خلال البحث عن أنماط في مقدار ضخم من البيانات. 


في بداية الأمر تم تطوير طرق التعليم الآلي» وطرق التعرّف على الأنماط على يد 
علماء الحاسوبء. وعلماء الرياضيات التطبيقية لغايات عملية مثل التعرف على خط 
al‏ وعملية فرز آلية للبريد» والترجمة الآلية» والرؤية الروبوتية. ولكن امتدت هذه 
الطرق بسرعة إلى الطرق التى نحلل بها البيانات الكمية بشتى أنواعها. ونتيجة AU‏ 
أصبح التخليل والتشيب في البيانات مجالين مزذهرين؛ فالتنقيب في البيانات مشروع 
توسع بشكل سريع» ليعطي ميلاد تخصص جديد» يدعى «علم البيانات»» وتخصصات 
مهنية جديدة. 


لقد كانت غاية هذا الكتاب تقديم مدخل ميسر إلى بعض من هذه الطرق. وبالنظر 
إلى Cath Dye ded all Ot gl SIS‏ فى Obed, Obl‏ المعاملات 
التجاريةء نتوقع قرار العديد من الناس تعلم هذه الطرق الجديدة من أجل تحليل 
البيانات. ومن ذلك» نقر Ob‏ هذا المجال من البحث لا يزال في مراحله الأولى. 
وتوجد Sel‏ بعض الحواجز التي تعرقل تطوره في المستقبل. وليس مصدر هذه 
العراقل» مجتمعات علوم الحاسوب أو الرياضيات التطبيقية التي تعد مبتكرة بوضوح 
بنسبة استثنائية» لتنتجح طرقا وخوارزميات جديدة. ولكن» تبقى البرمجيات تطرح 
مشاكل. وغالباً ما يكتب مختصو التنقيب في البيانات الأذكياء برامجهم في المتالاب 
(MATLAB)‏ أو البيثون (Python)‏ ولكن سيكون معظم المختصين في التنقيب في 
البيانات الطموحين» غير راغبين أو قادرين على إنتاج برنامج بدءا من الصفر. وكما 
سيلاحظ القراءء إننا لجأنا - فى المقابل - فى هذا الكتاب إلى لوحة منتوجات سهلة 
place‏ بسكل doling iS gine‏ على شك راسي لتقديي فة عام عن طرق 
التنقيب في البيانات» أحياناً باستخدام «الغامب Wy,‏ وأحياناً باستخدام ria‏ 
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الحزمة الإحصائية للعلوم الاجتماعية (SPSS)‏ وأحياناً أخر باستخدام R‏ وهكذا. 
وإن هذا التشظي لأدوات برمجية سهلة المنال - لعدم وجود حالياً أي حزمة مستقلة 
تغطي JS‏ الأدوات التي يحتاجها المرء - تنتج عبئاً لمختصين محتملين في التنقيب 
في البيانات. وهناك منحنى تعلم حاد (Steep Learning Curve)‏ في aa‏ 
بأنواع مختلفة جدا من البرمجيات. 


إننا في بعض الأحيان بعيدين JS‏ البعد عن الإعجاب بجودة هذه المنتوجات. 
على الرغم من استخدام جميعها. وفي كثير من الأحيان» يتوقف البرنامج كلية عن 
الاشتغال» أو يشتغل دائما. وقد تحدث هذه المشاكل عندما تكون مجموعات 
البيانات ضخمة: أكثر من al‏ حالة. ويبدو من العبث ALS‏ كتاب» والمرء مفتونا 
بالبيانات الضخمة» وبعدها تقديم أمثلة متوسلين بحالات لا تتجاوز المائة» وهو ما 
يجد المرء - مع ذلك - في العديد من الكتب في هذا الموضوع. لقد حاولنا اجتناب 
القيام UL‏ واستخدمنا في هذا الكتاب بيانات ذات حجم معتبر متى كان ذلك 
ممكناء ولك بيجن de‏ افر ك أن يدركوا اكان colle] asta OF‏ مما GA)‏ 
تطبيقهم التنقيب في البيانات على مجموعات بياناتهم الواسعة. نتمنى أن تخف حدة 
oda‏ المشاكلن سرا كلما pee tel‏ جات pst oles pl‏ شميولية فى Sl‏ 
ال ils‏ كلجا تفن معلاو روجا تفن Seg E E EEE‏ 
ضخمة. ولكنء في الآونة الراهئة لا تزال هذه المشاكل تشكل خطراً. 


مازال تحليل بياناتناء يتطلب فى تجربتنا استبصارات وخيرة جمة لدى المحلل. 
على الرغم من تقديم التنقيب في البيانات أدوات آلية. ولا يمكن للمرء إدخال - 
ببساطة - بانات أولية (Raw Data)‏ داخل هذه البرامج. ويتوقع الحصول على أي 
شيء مفيد. إن خبرة المحلل حاسمة في تحديد المشكل أو السؤال المعالّج. وإن 
معالجة البيانات قبليا - من خلال البت في المتغيرات التي نضم» وفي كيفية قياسها 
- هى مرحلة تستهلك الوقت والتفكير معاً. إن التحاليل الاستكشافية للبيانات - من 
خلال البحث عن السمات والمتغيرات المهمة» والوقوع في الحيرة بسبب نتائج غير 
متوقعة أو الافتقار إليها أصلاً - تطرح إشكالاً دقيقاً؛ ذلك بأنه في العديد من الحالات 
تكون مسألة اختيار التقنية معقدة. هناك العديد من البدائل» وربما يريد المرء بدائل 
متعددة. وفي تجربتناء تتحسن النماذج بشكل كبير بفضل الضبط (Fine-Tuning)‏ 
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عبر التجربة والخطأ «(Trial and Error)‏ وتعديل المَعلمات. bol‏ تعل ترجمة 
النتائح من التحاليل إلى شيء يمْكن للعملاء التجاريين أو الزبائن فهمه» تعهدا غير 
تافه. 

وبالتالي» كي يصبح المرء مختصاً في التنقيب في البيانات» تشمل الخطوة التالية 
- بعيدا عن إتقان مضمون هذا الكتاب - تطوير هذه الاستراتيجيات والمهارات عبر 
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أشحار الانحدار والتصنيف (Classification and Regression Trees‏ 
(CART)‏ هي طرق تعليم آلي من أجل تشكيل نماذج تنبؤ انطلاقاً من بيانات. ويتم 
الحصول على هذه البيانات بواسطة التقسيم العودي لحيز البيانات» والعمل على 
مواءمة نموذج تكن تسيط داخل كل تقسيم. ونتيجة لذلك» يمكن للتقسيم تمثيل 
شجرة القرار Ah‏ 

أشجار القرار (Decision Trees)‏ تشير إلى شكل بسيط وقوي من أشكال 
التحليل المتعدد المتغيرات» ويتم إنتاجها من قبل الخوارزميات التي تحدد طرقا 
متنوعة من تقسيم مجموعة بيانات إلى قطع شبيهة بالفروع. 

انحدار تدريجى (Stepwise Regression)‏ : إنه أداة AST‏ تستخدم في المراحل 
الااستكشافية لبناء نموذج ما بغية تحديد مجموعة فرعية مفيدة esr caves‏ ويضيف 
هذا الإجراء المتغير الأكثر دلالة أو يزيل المتغير BY‏ دلالة خلال |S‏ خطوة. 

انحدار الطبقة الكامنة ft, (Latent Class Regression)‏ انحدار الطبقة 
الكامنة تشكيل طبقات كامنة لمجموعات فرعية أو قطع غير مرصودة لحالات ما؛ أي 
إنه يربط مجموعة من المتغيرات المتعددة التباننات المرصودة بمجموعة متغيرات 
كامنة. إنه نوع من نموذج متغير كامن. ويدعى نموذج طبقة كامنة» OV‏ المتغير الكامن 
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انحدار لوجيستى :(Logistic Regression)‏ هو أداة إحصائية» تروم التحليل 
مثل JS‏ أنواع تحليلات الانحدار. ويستعمل في وصف البيانات وتفسير العلاقة بين 
متغير تابع ثنائي ومتغيرات مستقلة عادية للغاية مثلاً. وهو صعب التفسير أحياناً. 


انحدار متعدد (Multiple Regression)‏ هو وسيلة إحصائية يهدف إلى 
التعرف أكثر على العلاقة القائمة بين متغيرات مستقلة أو متغيرات متنبئة عديدة وبين 
متغير تابع أو متغير معياري. وبمجرد تحديد هذه العلاقة» يكون بإمكانك الحصول 
على معلومات حول جميع المتغيرات المستقلة» واستخدامها في تشكيل تنبؤات أكثر 
قوة ودقة حول السبب الذي جعل من هذه LEV‏ أن تكون على الشكل الذي هي 
ade‏ 


Lad 


اتحدار المربعات الصغرى العادية (Ordinary Least Squares‏ 
Regression)‏ هي طريقة إحصائية لتقدير OLS!‏ غير المعروفة في نموذج 
الانحدار الخطي بغية تقليص مجموع مربعات الاختلاف بين الاستجابات المرصودة. 
وهي قيم المتغيرات المتنبأة في مجموعة بيانات معينة» وبين تلك القيم المتنبأة من 
قبل دالة خطية لمجموعة متغيرات تفسيرية. 

!-أقرب الحيران (k-Nearest Neigbours)‏ ھی إحدى خوارزميات 
التصنيف الأساسية في التعلم TE‏ وتستخدم في anal‏ واا انحدار تنبؤية. 

تحريف البيانات :(Data Dredging)‏ وتدعى E‏ «اصطياد البيانات»» وهى 
ممارسة التنقيب في البيانات حيث تحليل أحجام هائلة من البيانات للبحث 5 
علاقات ممكنة بين البيانات. وأما الطريقة العلمية التقليدية» فتبدأ بفرضية cle‏ وتتبع 
بفحص للبيانات» على عكس تجريف البيانات التى تسعى إلى استكشاف أنماط أو 
col pice bly J‏ ی دايا ار لها ذلالة من dear) See‏ إلا حضاف 
دون اقتراح فرضية محددة حول السببية الأساسية. 

تجميعات الحاسوب (Computer Clusters)‏ هی تجميعات تحتوي على 
مدرو ون جريب E‏ كد فيتم اعتبارها نظاما 
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gel] حاترب ال فع اام كل‎ levered من هقد‎ Bde كر‎ cy lets 
بمراقبة من برمجية ما.‎ 


تحليل المكون الرئيسى (PCA) (Principal Component Analysis)‏ هو 
تقنية تستخدم للتركيز على التباين» والوقوف عند أنماط قوية في مجموعة بيانات» 
وغالباً ما يستخدم أيضاً لتسهيل عملية استكشاف البيانات بشكل واضح. 

تحليل المكون المستقل :(ICA) (Independent Component Analysis)‏ 
هو تقنية إحصائية وحاسوبية لاستكشاف عوامل خفية مؤسسة لمجموعات متغيرات 
عشوائية» وقیاسات» وإشارات. 


تصحيح بونفيرونى ‘(Bonferroni Correction)‏ إنه تصحيح يعتمد المقارنة 
المتعددة المستخدمة عندما تنجز عدة اختبارات إحصائية تابعة أو مستقلة فى آن 


واحد. 


تعيلم آلي (Machine Learning)‏ هو حقل فرعي من حقول علوم الحاسوب. 
التي تمنح الحواسيب القدرة على التعلم دون أن تكون مبرمجة بشكل واضح. 

تقسيم الأشحار (Trees Partition)‏ هى أداة التنقيب فى البيانات النموذجية؛ 
فهي بسيطة» وفعالة. وتعتمد على البيانات» بشكل مطلق؛ إنها Vol‏ وقبل كل شيء. 
مصنف» تستعمل خصائص المدخل لخلق نموذج يقسم حالات إلى فئات ذات قيم 
مختلفة على مستوى نتيجة ذات دلالة. 


تقسيم عودي :CRecursive Partitioning)‏ إنها خوار زمية» تشير إلى فكرة 
بسيطة جدأً من التجميع» وهي عكس التجميع التراتبي» كما تشير إلى عملية متدرجة. 
تتشكل خلالها شجرة قرار ما بواسطة تقسيم أو دون تقسيم JS‏ عقدة على حدة إلى 

حزمة إحصائية للعلوم الاجتماعية (Statistical Package for the Social‏ 
(SPSS) Sciences)‏ هي برمجيات تستخدم في التحليل الإحصائي لإدخال 
البيانات» وتمثيلها في بيانات وجداول. وهي قادرة على معالجة بيانات ضخمة. 
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التنقيب فى البيانات (Data Mining)‏ (1011): يطلق على مجموعة من تقنيات 
الحاسوب المكثف. بغية استكشاف البنية» وتحليل الأنماط فى البيانات. 

حيلة أو خدعة النواة (Kernel Trick)‏ هى تقنية من تقنيات التعلم JY!‏ 
لتجنب حساب مكثف ما في بعض الخوار زميات التي تجعل الحساب يسير من كونه 
إجرائياً إلى كونه غير إجرائي. 

مربع كاي للكشف عن التفاعل التلقائي (CHi-Squared Automatic‏ 
Interaction Detector)‏ ((11411)): يشير إلى خوارزمية› تستعمل من أجل 
استكشاف العلائق القائمة بين متغير الاستجابة الفئوية» ومتغيرات متنبوع فكوية أخرى. 
ويستخدم مربع كاي للكشف عن التفاعل التلقائي عندما نبحث عن أنماط في 
مجموعات البيانات ذات تغيرات فئوية كثيرة» وهو طريقة مناسبة لتلخيص البيانات 
باعتبارها علائق» يمكن رؤيتها بسهولة. 

«رابدماینر» أو منقب سريع :(RapidMiner)‏ هي منصة برمجيات علوم بيانات 
تم تطويرها من قبل الشركة التي تحمل هذا (ew VI‏ وتحتوي على مجموعة من 
يمكن للمحلل الحصول سرعة على سلسلة كاملة من معالجة البيانات. 

ستاتا (Stata)‏ إنها حزمة برمجيات ذات غاية إحصائية عامة» بحيث تمتد 
قدرات «الستاتا» لتشمل إدارة البيانات» والتحليل الإحصائي» والرسوم البيانية» 

شعاع الدعم الآلي ‘(Support Vector Machines)‏ هي نماذج تعليم مراقب 
ذات خوارزميات تعليم مر ehs‏ يحلل البيانات لااستخدامها في التصنيف وتحليل 
الانحدار. وقد استخدمت هذه النماذج في شتى العلوم مثل علوم الأحياء لتصنيف 
البروتينات. 

صلاحية متبادلة :(Cross- Validation)‏ هي تقنية تستعمل في تقييم كيفية 
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طرق (pL)‏ الساذج :(Naïve Bayes Methods)‏ هى مجموعة من خوارزميات 

التعليم المراقبء القائمة على تطبيق نظرية بايزء في علاقتها بالافتراض الساذج 
و ص 

للاستقلال بين كل زوج من السمات على حدة. كما تعد طرقا إحصائية للتصنيف. 

غامب برو (JMP Pro)‏ هو نسخة تحليلية متقدمة من «الغامب» الذي يمكننا 
من استخدام البيانات التي بحوزتنا لتوقع المستقبل بشكل أفضل والتخطيط له. 
و«الغامب برو برمجية» يقدم Js‏ البيانات المتفوقة بشكل واضح. 

فرضية صفرية أو (عدم) :(Null Hypothesis)‏ تمثل الفرضية الصفرية ب (Hy‏ 
وهي عادة فرضية تقوم بمعاينة ترصدات تنشأ صدفة. وهي تقوم على فكرة عدم وجود 
أي علاقة بين ظاهرتين تم قياسهماء أو أي ترابط بين مجموعات. 

اللاسو (Least Absolute Shrinkage and Selection Operator)‏ 
:(LASSO)‏ فى علم cLa Yi‏ يعل اللاسو طريقة تحليل انحدار» pe‏ عمليتى 
انتقاء المتغير والتضبيط بغية تحسين Bo‏ التنبؤ وتفسير النموذج الإحصائي الذي 


جو 


متغير (Variable)‏ قد يكون ال Aes‏ أو فكرة» أو شعورء أو فترق 
متغيرات تابعة :)Dependen٤ Variables)‏ المتغير التابع هو ما يتم قياسه في 
التجربة» وهو الذي يتأثر خلال هذه التجربة. ويدعى تابع OY‏ وجوده «يتوقف» على 
وجود متغير مستقل؛ ومن تم» لا يمكن تصور متغير تابع من دون متغير مستقل. إذا 
كنت مثلاً مهتما بمقدار تأثير الضغط في معدل ضربات القلب لدى OLY‏ فسيكون 
مباشر معالجة مستويات الضغط لدى المبحوثين» وقياس كيفية تغيير مستويات 
متغيرات مستقلة (Independent Variables)‏ هو متغير قائم بذاته ولا تغيره 
متغيرات أخرى. قد يكون العمر مثلاً متغيراً مستقلاًء ذلك Ob‏ عوامل أخرى من قبيل 
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«نوع الأكل الذي يتناوله» صاحب هذا العمرء وكم من مرة يتردد على المدرسة. وكم 
من ساعة يشاهد فيها التلفاز» هى أمور لا تغير العمر. 


متغيرات مستمرة (Continuous Variables)‏ : إذا تمكن متغير ما من أخذ خذ أي 
deg‏ ن ated‏ القضيوئ و قبيعةه LRU‏ ضار متغير | مسنتهراء وإذا أخفق» عد متغير 

متغيرات وهمية أو صورية (Dummy Variables)‏ هو متغير رقمى يستخدم 

مصفوفة ارتباك (Confusion Matrix)‏ وتحتوي على معلومات حول 
التصنيفات الحقيقية والمتنبأة» التي تتم بواسطة نظام تصنيف ما. وإن elal‏ هذه النظم 
تقيم عادة من خلال استعمال البيانات في المصفوفة. وتستمد مصفوفة الارتباك قوتها 
انطلاقا من تحديدها لطبيعة تصنيف الأخطاء وكمياتها. 

مصفوفة ترابطية أو علائقية (Correlation Matrix)‏ تشير إلى جدول يعرض 
متغيرات متعل ده في الوقت نفسه. 

معامل تضخم التباين Variance Inflation Factor)‏ )۷1۴ ): عوامل تقيس 
مقدار تباين تضخم معاملات الانحدار المقدرة مقارنة بالحالة التي تكون فيها 
cul pate‏ المتتيء غير مترابطة خطبا. 

معاملات الانحدار ‘(Regression Coefficients)‏ معامل الانحدار فى 
الإ حصائيات» هو dad‏ الثابتة في معادلة الانحدار التي تخبرنا عن تغيير قيمة المتغير 
التابع الذي يوافق re‏ الوحلةذ في المتغير المستقل. 

معيار أكايكى للمعلومة (AIC) (Akaike Information Criterion)‏ إنه 
الإحصائية المتنافسة» وانتقاء الأنسب منها. 


3/2 


معيار بايز للمعلومة (BIC) (Bayes information Criterion)‏ هو معيار 
يستخدم في انتقاء نموذج ما من بين مجموعة نماذج محدودة» بحيث ينتقى أساسا 
النموذج الذي لديه أقل نسبة من معيار بايز للمعلومة» وهو وثيق الصلة بمعيار أكايكي 
للمعلومة. 

منحنى خاصية التشغيل المتلقى (Receiver Operating Characteristic)‏ 
وهي طريقة تقارن الاختبارات التشخيصية. كما أنه رسم بياني يمثل معدل الإيجابي 
الصادق مقابل المعدل الإيجابى الكاذب. 

cole‏ الشبكات العصبية (Neural Network Models)‏ الشبكة العصبية 
نموذج بيانات حاسوبية قوية» قادرة على ضبط وتمثيل العلاقات المدخلة والمخرجة 
المعقدة. وكان الدافع من وراء تطوير هذه الشبكة» هو تشكيل نظام اصطناعي يمكن 
أن يؤدي مهام ذكية شبيهة بذكاء عقل الإنسانء الذي يكتسب المعلومة ويخزنها. 

نمذجة جز ئية المربعات الكامنة الصغرى (Partial Least Squares Latent‏ 
:Modeling)‏ هي طريقة إحصائية تستخدم في تشكيل نماذج تنبؤية عندما تكون 
العوامل متعددة وخطية مشتركة بشكل كبير» كما تستخدم لإيجاد علاقات أساسية 
بين مصهوفتين × و۲ . 
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cinah الاتخذاز‎ lows! 


أشجار القرار 

عا-أقرب الجيران 

دار gm‏ 
ا 
انحدار لوجيستي 

انحدار متعدد l‏ 

انخدان المربعات الصكرف 
العادية 

تجريف البيانات 


Classification and Regression Trees (CART) 
Decision Trees 

k-Nearest Neigbours 

Stepwise Regression 

Latent Class Regression 

Logistic Regression 

Multiple Regression 


Ordinary Least Squares Regression 


Data Dredging 

Computer Clusters 

Principal Component Analysis (PCA) 
Independent Component Analysis (ICA) 
Bonferroni Correction 

Machine Learning 

Trees Partition 

Recursive Partitioning 

JMP Pro 

Statistical Package for the Social Sciences (SPSS) 
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تنقيب في البيانات 

غيل أو دعلا 

مربع كاي للكشف عن 
التفاعل التلقائي 
ارابدمايئر» أو منقب سريع 
ستاتا 

شعاع الدعم الآلي 
صلاحية متبادلة 

طرق بايز الساذج 

فرضية صفرية أو (عدم) 
eat‏ 

متغيرات تابعة 

متغيرات مستقلة 

متغيرات مستمرة 

متغيرات وهمية أو صورية 
مصفوفة ارتباك 

مصفوفة ترابطية أو علائقية 


معاملات الانحدار 
معيار أكايكي للمعلومة 
معيار بايز للمعلومة 
منحنى خاصية التشغيل 
المتلقى 

نماذج الشيكات العصبية 
نمذجة جزئية المربعات 


الكامنة الصغرى 


Data Mining (DM) 

Kernel Trick 

CHi-Squared Automatic Interaction Detector 
(CHAID) 

RapidMiner 

Stata 

Support Vector Machines 

Cross- Validation 

Naive Bayes Methods 

Null Hypothesis 

Least Absolute Shrinkage and Selection Operator 
(LASSO) 

Variable 

Dependent Variables 

Independent Variables 

Continuous Variables 

Dummy Variables 

Confusion Matrix 

Correlation Matrix 


Variance-Inflation-Factor 


(VIF) 

Regression Coefficients 

Akaike Information Criterion (AIC) 
Bayes Information Criterion (BIC) 


Receiver-Operating-Characteristic(ROC) 


Neural Network Models 
Partial Least Squares Latent Modeling 
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مد خل إلى التنقيب 
بك يانات العلوم الاستماصية 





المؤلف: بول اليزيل: أعتاذ متب في ضلم اال جشام لي عر د 
المر tl‏ العامة pe Sarba‏ يررك ست ne‏ قرو 
حبرل ایل الپ ادات 


(rv ب مو تاطا مر اشح دكترراء آي علم الاجتواع‎ ahaa 
keppi jely dap العرلسفت. العليا أي جامعة مفية‎ 
عبرل ل فى البحعث الكلمي م الف يجهر في و التسقيم.‎ 

عن لككرين المأجسير في «العراصل» والتقافا. والترجةة بشم 
iai‏ ال سطيريةء يكلية الأماب والعلرم ipli‏ ر جنا 
الغرب. والمزول عن التغريناث A patel‏ بالإتسليزية 
اسر كر الشقيات iy‏ تعس ؛ ae la‏ ممست الأول بو جا 
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